ジェイルブレイク攻撃を防ぐために：AIサービス構築で選ぶべきLLMとは？：2025/04/05

近年、多くの企業が顧客対応チャットボット、社内ナレッジベース、業務自動化など、AIを活用した新たなサービスの市場展開を進めています。

私も最近スタートアップのイベントに行ったのですが、半分以上の企業がサービスの何某かにAIを活用している、という印象でした。（どこまで本当に利用しているのかまではわかりませんでしたが）

どの企業も、実際にAIを用いてサービス構築をするときに、

どのモデルを採用するか？

という課題にぶつかることになります。

おそらく自社のサービスに適したモデルはどれか？ということで、「比較表を作成→プロトタイプ実装→決定」という様なプロセスで選定を進めているのだと思います。

今日は、その選択の一つの視点として「ジェイルブレイク攻撃に対する脆弱性」という視点を加えたときに、どのモデルを選択すべきか？と考えたときに、参考となる文献が発表されたので、紹介したいと思います。

今回紹介する文献は以下の文献です。

（LLM におけるセキュリティの進化: 脱獄攻撃と防御の研究）

文献の中では、以下のモデルシリーズの比較を紹介しています。

結論からすると以下のような比較になっています。

各シリーズの内容を見ていきましょう。

LLaMaはMetaが開発したオープンソースのLLMです。

特にLLaMA-2やLLaMA-3が広く利用されていて、オープンなコミュニティによる多様な改良・チューニングが進んでいます。

LLaMAシリーズは安全性向上のための細かな調整が行われており、特にLLaMA-2はジェイルブレイク攻撃に比較的強いと言われています。

例えば、Cipher攻撃（暗号化を使ったジェイルブレイク攻撃）に対し、LLaMA-2-70Bモデルは非常に強力な防御性能を示しています。

一方、文献によると、LLaMA-3シリーズは一部の攻撃タイプにおいてはLLaMA-2シリーズより脆弱性が増すケースも確認されており、必ずしも新しいバージョンが安全性向上を保証するわけではなさそうです。

ちなみに、LLaMAシリーズを簡単に利用できるクラウドプラットフォームとしては、以下があります。

Mistral AIが提供する軽量で高性能なオープンソースモデル。

特にスタートアップや中小企業に人気で、コストパフォーマンスが良く、高速な推論が可能です。

しかし、文献によると、MistralシリーズはCipher攻撃やRenellm攻撃に対してLLaMAシリーズと比較して防御性能が低く、安全性強化を目的としたアップデートが少ないため、ジェイルブレイク攻撃への耐性は現状では限定的とのこと。

ただし、迅速なアップデートと改良が特徴であるため、今後の安全性向上が期待できます。

Mistralシリーズを簡単に利用できるクラウドプラットフォームには以下があります。

OpenAIのGPT-3.5やGPT-4は商用モデルとして最も広く利用されており、企業のAIサー

ビスでの採用も進んでいます。GPTシリーズはクローズドソースのため、OpenAI側で安全措置が強化されており、安定した性能を発揮します。

文献ではGPT-3.5が特定のジェイルブレイク攻撃（特にRenellm攻撃）に非常に脆弱であることが報告されています。また、GPT-4についても同研究でCipher攻撃に対して比較的弱い防御性能を示すことが指摘されており、安全性にはまだ改善の余地があります。

（とはいえ個人的には、GrokやGeminiに比べるとChatGPTシリーズは堅牢だという実感はjailbreakをしていて感じています。）

企業がAIサービス構築時に安全性を重視する場合、ジェイルブレイク攻撃への強さや防御のしやすさを考えると、現時点ではLLaMAシリーズが有力な選択肢であることが今回の文献からは読み取れます。特にLLaMA-2シリーズは攻撃への耐性が比較的高く、防御手法との相性も良好です。

GPTシリーズも商用利用として安定していますが、脆弱性も存在するため、利用する際には追加的な防御策を講じる必要があります。Mistralシリーズは軽量・高速で魅力的ですが、現時点では安全性向上が発展途上であるため、明確な防御策との併用が求められます。

今回はあくまで「ジェイルブレイクに対する脆弱性」という視点での比較なので、これだけでモデルを決めるというのは難しいと思いますが、「安全性が不可欠なサービス」という前提がある場合は、今回の文献は参考になると思います。