ジェイルブレイク攻撃を防ぐために:AIサービス構築で選ぶべきLLMとは?:2025/04/05
- 晋次 宮田
- 2025年4月5日
- 読了時間: 4分

近年、多くの企業が顧客対応チャットボット、社内ナレッジベース、業務自動化など、AIを活用した新たなサービスの市場展開を進めています。
私も最近スタートアップのイベントに行ったのですが、半分以上の企業がサービスの何某かにAIを活用している、という印象でした。(どこまで本当に利用しているのかまではわかりませんでしたが)
どの企業も、実際にAIを用いてサービス構築をするときに、
どのモデルを採用するか?という課題にぶつかることになります。
おそらく自社のサービスに適したモデルはどれか?ということで、「比較表を作成→プロトタイプ実装→決定」という様なプロセスで選定を進めているのだと思います。
今日は、その選択の一つの視点として「ジェイルブレイク攻撃に対する脆弱性」という視点を加えたときに、どのモデルを選択すべきか?と考えたときに、参考となる文献が発表されたので、紹介したいと思います。
今回の文献
今回紹介する文献は以下の文献です。
(LLM におけるセキュリティの進化: 脱獄攻撃と防御の研究)
代表的なLLMの比較
文献の中では、以下のモデルシリーズの比較を紹介しています。
結論からすると以下のような比較になっています。
モデル名 | 安全性(ジェイルブレイク耐性) | コスト | 推論速度 | オープンソース |
LLaMAシリーズ | 比較的高い(特にLLaMA-2) | 中程度 | 中程度 | ○ |
Mistralシリーズ | 現時点では低め(改善中) | 低コスト | 高速 | ○ |
GPTシリーズ | 中程度(GPT-4は改善傾向) | 高コスト | 中~高速 | ×(クローズド) |
各シリーズの内容を見ていきましょう。
LLaMAシリーズ
LLaMaはMetaが開発したオープンソースのLLMです。
特にLLaMA-2やLLaMA-3が広く利用されていて、オープンなコミュニティによる多様な改良・チューニングが進んでいます。
LLaMAシリーズは安全性向上のための細かな調整が行われており、特にLLaMA-2はジェイルブレイク攻撃に比較的強いと言われています。
例えば、Cipher攻撃(暗号化を使ったジェイルブレイク攻撃)に対し、LLaMA-2-70Bモデルは非常に強力な防御性能を示しています。
一方、文献によると、LLaMA-3シリーズは一部の攻撃タイプにおいてはLLaMA-2シリーズより脆弱性が増すケースも確認されており、必ずしも新しいバージョンが安全性向上を保証するわけではなさそうです。
ちなみに、LLaMAシリーズを簡単に利用できるクラウドプラットフォームとしては、以下があります。
AWS Bedrock: AWSのマネージドサービスとして簡単にモデルを利用可能。
Azure AI Studio: Microsoft Azure上で簡単に導入・利用が可能。
Google Cloud Vertex AI: Google Cloud環境内での統合運用が可能。
Mistralシリーズ
Mistral AIが提供する軽量で高性能なオープンソースモデル。
特にスタートアップや中小企業に人気で、コストパフォーマンスが良く、高速な推論が可能です。
しかし、文献によると、MistralシリーズはCipher攻撃やRenellm攻撃に対してLLaMAシリーズと比較して防御性能が低く、安全性強化を目的としたアップデートが少ないため、ジェイルブレイク攻撃への耐性は現状では限定的とのこと。
ただし、迅速なアップデートと改良が特徴であるため、今後の安全性向上が期待できます。
Mistralシリーズを簡単に利用できるクラウドプラットフォームには以下があります。
AWS Bedrock: AWS上でのマネージド環境での利用が可能。
Azure AI Studio: Microsoft Azureを活用した統合的なAI環境。
Hugging Face: モデルハブとして簡単にアクセス・デプロイが可能。
GPTシリーズ
OpenAIのGPT-3.5やGPT-4は商用モデルとして最も広く利用されており、企業のAIサー
ビスでの採用も進んでいます。GPTシリーズはクローズドソースのため、OpenAI側で安全措置が強化されており、安定した性能を発揮します。
文献ではGPT-3.5が特定のジェイルブレイク攻撃(特にRenellm攻撃)に非常に脆弱であることが報告されています。また、GPT-4についても同研究でCipher攻撃に対して比較的弱い防御性能を示すことが指摘されており、安全性にはまだ改善の余地があります。
(とはいえ個人的には、GrokやGeminiに比べるとChatGPTシリーズは堅牢だという実感はjailbreakをしていて感じています。)
ふまえて:どのモデルを選ぶべきか?
企業がAIサービス構築時に安全性を重視する場合、ジェイルブレイク攻撃への強さや防御のしやすさを考えると、現時点ではLLaMAシリーズが有力な選択肢であることが今回の文献からは読み取れます。特にLLaMA-2シリーズは攻撃への耐性が比較的高く、防御手法との相性も良好です。
GPTシリーズも商用利用として安定していますが、脆弱性も存在するため、利用する際には追加的な防御策を講じる必要があります。Mistralシリーズは軽量・高速で魅力的ですが、現時点では安全性向上が発展途上であるため、明確な防御策との併用が求められます。
今回はあくまで「ジェイルブレイクに対する脆弱性」という視点での比較なので、これだけでモデルを決めるというのは難しいと思いますが、「安全性が不可欠なサービス」という前提がある場合は、今回の文献は参考になると思います。



