top of page
IMG_0546.JPG

ジェイルブレイク攻撃を防ぐために:AIサービス構築で選ぶべきLLMとは?:2025/04/05

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年4月5日
  • 読了時間: 4分

近年、多くの企業が顧客対応チャットボット、社内ナレッジベース、業務自動化など、AIを活用した新たなサービスの市場展開を進めています。

私も最近スタートアップのイベントに行ったのですが、半分以上の企業がサービスの何某かにAIを活用している、という印象でした。(どこまで本当に利用しているのかまではわかりませんでしたが)

どの企業も、実際にAIを用いてサービス構築をするときに、

どのモデルを採用するか?

という課題にぶつかることになります。

おそらく自社のサービスに適したモデルはどれか?ということで、「比較表を作成→プロトタイプ実装→決定」という様なプロセスで選定を進めているのだと思います。

今日は、その選択の一つの視点として「ジェイルブレイク攻撃に対する脆弱性」という視点を加えたときに、どのモデルを選択すべきか?と考えたときに、参考となる文献が発表されたので、紹介したいと思います。



今回の文献


今回紹介する文献は以下の文献です。


(LLM におけるセキュリティの進化: 脱獄攻撃と防御の研究)



代表的なLLMの比較


文献の中では、以下のモデルシリーズの比較を紹介しています。

結論からすると以下のような比較になっています。

モデル名

安全性(ジェイルブレイク耐性)

コスト

推論速度

オープンソース

LLaMAシリーズ

比較的高い(特にLLaMA-2)

中程度

中程度

Mistralシリーズ

現時点では低め(改善中)

低コスト

高速

GPTシリーズ

中程度(GPT-4は改善傾向)

高コスト

中~高速

×(クローズド)

各シリーズの内容を見ていきましょう。



LLaMAシリーズ


LLaMaはMetaが開発したオープンソースのLLMです。

特にLLaMA-2やLLaMA-3が広く利用されていて、オープンなコミュニティによる多様な改良・チューニングが進んでいます。

LLaMAシリーズは安全性向上のための細かな調整が行われており、特にLLaMA-2はジェイルブレイク攻撃に比較的強いと言われています。

例えば、Cipher攻撃(暗号化を使ったジェイルブレイク攻撃)に対し、LLaMA-2-70Bモデルは非常に強力な防御性能を示しています。

一方、文献によると、LLaMA-3シリーズは一部の攻撃タイプにおいてはLLaMA-2シリーズより脆弱性が増すケースも確認されており、必ずしも新しいバージョンが安全性向上を保証するわけではなさそうです。

ちなみに、LLaMAシリーズを簡単に利用できるクラウドプラットフォームとしては、以下があります。

  • AWS Bedrock: AWSのマネージドサービスとして簡単にモデルを利用可能。

  • Azure AI Studio: Microsoft Azure上で簡単に導入・利用が可能。

  • Google Cloud Vertex AI: Google Cloud環境内での統合運用が可能。



Mistralシリーズ


Mistral AIが提供する軽量で高性能なオープンソースモデル。

特にスタートアップや中小企業に人気で、コストパフォーマンスが良く、高速な推論が可能です。

しかし、文献によると、MistralシリーズはCipher攻撃やRenellm攻撃に対してLLaMAシリーズと比較して防御性能が低く、安全性強化を目的としたアップデートが少ないため、ジェイルブレイク攻撃への耐性は現状では限定的とのこと。

ただし、迅速なアップデートと改良が特徴であるため、今後の安全性向上が期待できます。

Mistralシリーズを簡単に利用できるクラウドプラットフォームには以下があります。

  • AWS Bedrock: AWS上でのマネージド環境での利用が可能。

  • Azure AI Studio: Microsoft Azureを活用した統合的なAI環境。

  • Hugging Face: モデルハブとして簡単にアクセス・デプロイが可能。



GPTシリーズ


OpenAIのGPT-3.5やGPT-4は商用モデルとして最も広く利用されており、企業のAIサー

ビスでの採用も進んでいます。GPTシリーズはクローズドソースのため、OpenAI側で安全措置が強化されており、安定した性能を発揮します。

文献ではGPT-3.5が特定のジェイルブレイク攻撃(特にRenellm攻撃)に非常に脆弱であることが報告されています。また、GPT-4についても同研究でCipher攻撃に対して比較的弱い防御性能を示すことが指摘されており、安全性にはまだ改善の余地があります。

(とはいえ個人的には、GrokやGeminiに比べるとChatGPTシリーズは堅牢だという実感はjailbreakをしていて感じています。)



ふまえて:どのモデルを選ぶべきか?


企業がAIサービス構築時に安全性を重視する場合、ジェイルブレイク攻撃への強さや防御のしやすさを考えると、現時点ではLLaMAシリーズが有力な選択肢であることが今回の文献からは読み取れます。特にLLaMA-2シリーズは攻撃への耐性が比較的高く、防御手法との相性も良好です。

GPTシリーズも商用利用として安定していますが、脆弱性も存在するため、利用する際には追加的な防御策を講じる必要があります。Mistralシリーズは軽量・高速で魅力的ですが、現時点では安全性向上が発展途上であるため、明確な防御策との併用が求められます。

今回はあくまで「ジェイルブレイクに対する脆弱性」という視点での比較なので、これだけでモデルを決めるというのは難しいと思いますが、「安全性が不可欠なサービス」という前提がある場合は、今回の文献は参考になると思います。

 
 
bottom of page