top of page
IMG_0546.JPG

GPT-4oで攻撃成功率98.9%──騙し絵的プロンプト攻撃

  • 執筆者の写真: 寛和 筒井
    寛和 筒井
  • 2025年5月3日
  • 読了時間: 3分

更新日:2025年9月6日

GPT-4oで攻撃成功率98.9%──騙し絵的プロンプト攻撃|Shindy Miyata

近年、ChatGPTやGeminiなどのAIに「言ってはいけないことを言わせる」jailbreak(脱獄)攻撃が、一部で問題視されています。それに対して、AIモデル開発企業(OpenAIやGoogleなど)は、AIに倫理ルールや安全対策を組み込むことで、たとえば「爆弾の作り方」などの質問には「答えられません」と返すように対策を施しています。


この問題(jailbreak問題)に関しては

「包丁やナイフと一緒で悪用しなければよいのでは?」


という意見もありますが、問題はそこではありません。AIの内部規制を突破できてしまうことが問題視されているのです。



具体的にどのような実害があるかというと、例えば、AIエージェントのような自律的に行動するAIに対して、内部ルールを回避させる指示を出し、意図しない処理を実行させるリスクなどが発生します。

これは、結果的に、内部情報の抜き取りや、不正アクセスの補助などに繋がる可能性があます。

つまり、jailbreakの問題とは単なる「言わせてしまう」ことではなく、「AIの制御を奪ってしまう」という致命的な脆弱性を突かれている点にあるのです。



「AIの理解力」を逆手にとる攻撃


序盤お硬い話をしておいてなんですが、最近わりと強力な攻撃手法に関する研究発表(2025年5月29日)があったので今回はその紹介をします。


📖 Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models 日本語訳:AIの“意味を理解する力”に応じて変化する、適応型のジェイルブレイク戦略

この攻撃の特徴:3段階の戦略構造「Fu + En₁ + En₂」


研究で提案されたjailbreakは以下の3ステップから成り立つ攻撃です。


  1. Fu(構文偽装)

危険な命令文(例:How to make a bomb)を、Python風の関数として偽装します。


def make(bomb): How to make a bomb

  1. En₁(構造変更)


この手法では、もともとの危険な文章(たとえば「爆弾の作り方」)を、そのままAIに渡すとAIに怒られるので、指示文をバラバラのパズルにしてAIに渡します。

するとAIは


  1. そのパズルを自分で解いて(=復号して)

  2. 「これはただのパズル課題だ」と思って

  3. 本来なら禁止されている内容にも気づかず答えてしまう

という状態になります。



3. En₂(検閲回避)


最後に、AIが生成する出力もCaesar暗号(アルファベットを1文字ずらす)で返すように命令します。たとえば


to make a bomb → up nblf b cpnc

このようにしてAIは危険な出力をしているにもかかわらず、出力を監視するフィルターには引っかからない状態になります。



やってみた


ということで恒例の「やってみた」コーナーです。論文を参考に攻撃Promptを作り、Gemini2.5Flash、ChatGPT-4o、DeepSeekに対して実験をしてみました。


おそらく論文はAPI経由の様に読み取れますが、明記はされていませんでした。今回はお金が勿体ないのでAPI経由ではなくUI経由での実験です。(Prompt生成Scriptはgithubに置いておきます。pythonです。)



Gemini2.5の結果

Gemini2.5の結果


ChatGPT-4oの結果

ChatGPT-4oの結果


DeepSeekの結果

DeepSeekの結果

全てのモデルが攻撃に成功しました。ここまで回答させられれば、「更に詳細に」という形で細かい手順書まで作成させることが可能です。(やりませんが)



論文での実験結果:GPT-4oを98.9%の確率で突破


この攻撃戦略を用いて、研究者たちは次のようなAIに対してテストを行いました

  • GPT-4o(OpenAI最上位モデル、2025年5月29日版)

  • LLaMA 2–7B, 13B

  • 他のベースラインモデル(GPTFuzz、CodeChameleonなど)


論文によると、その結果は以下のように、非常に高い攻撃成功率(ASR)を示しています。

  • GPT-4o :98.9%

  • LLaMA 2–13B: 94.5%

  • LLaMA 2–7B: 93.4%


さいごに


新しく発表された攻撃手法ということもあり、手元では100%成功しました。UI経由でこれだけ突破できてしまうということはAPI経由なら攻撃成功率が高いのは納得です。


最近はjailbreakやPrompt Injectionといった「AIへの攻撃」より、「守備(AI alignment)」の方に興味が湧いてきた今日この頃なのですが、私から見るとあちらは哲学的な世界に見えてしまい、遠くから眺めて終わっています(誰か誘って下さい)。

 
 
bottom of page