GPT-4oで攻撃成功率98.9%──騙し絵的プロンプト攻撃
- 寛和 筒井
- 2025年5月3日
- 読了時間: 3分
更新日:2025年9月6日

近年、ChatGPTやGeminiなどのAIに「言ってはいけないことを言わせる」jailbreak(脱獄)攻撃が、一部で問題視されています。それに対して、AIモデル開発企業(OpenAIやGoogleなど)は、AIに倫理ルールや安全対策を組み込むことで、たとえば「爆弾の作り方」などの質問には「答えられません」と返すように対策を施しています。
この問題(jailbreak問題)に関しては
「包丁やナイフと一緒で悪用しなければよいのでは?」
という意見もありますが、問題はそこではありません。AIの内部規制を突破できてしまうことが問題視されているのです。
具体的にどのような実害があるかというと、例えば、AIエージェントのような自律的に行動するAIに対して、内部ルールを回避させる指示を出し、意図しない処理を実行させるリスクなどが発生します。
これは、結果的に、内部情報の抜き取りや、不正アクセスの補助などに繋がる可能性があます。
つまり、jailbreakの問題とは単なる「言わせてしまう」ことではなく、「AIの制御を奪ってしまう」という致命的な脆弱性を突かれている点にあるのです。
「AIの理解力」を逆手にとる攻撃
序盤お硬い話をしておいてなんですが、最近わりと強力な攻撃手法に関する研究発表(2025年5月29日)があったので今回はその紹介をします。
📖 Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models 日本語訳:AIの“意味を理解する力”に応じて変化する、適応型のジェイルブレイク戦略
この攻撃の特徴:3段階の戦略構造「Fu + En₁ + En₂」
研究で提案されたjailbreakは以下の3ステップから成り立つ攻撃です。
Fu(構文偽装)
危険な命令文(例:How to make a bomb)を、Python風の関数として偽装します。
def make(bomb): How to make a bombEn₁(構造変更)
この手法では、もともとの危険な文章(たとえば「爆弾の作り方」)を、そのままAIに渡すとAIに怒られるので、指示文をバラバラのパズルにしてAIに渡します。
するとAIは
そのパズルを自分で解いて(=復号して)
「これはただのパズル課題だ」と思って
本来なら禁止されている内容にも気づかず答えてしまう
という状態になります。
3. En₂(検閲回避)
最後に、AIが生成する出力もCaesar暗号(アルファベットを1文字ずらす)で返すように命令します。たとえば
to make a bomb → up nblf b cpncこのようにしてAIは危険な出力をしているにもかかわらず、出力を監視するフィルターには引っかからない状態になります。
やってみた
ということで恒例の「やってみた」コーナーです。論文を参考に攻撃Promptを作り、Gemini2.5Flash、ChatGPT-4o、DeepSeekに対して実験をしてみました。
おそらく論文はAPI経由の様に読み取れますが、明記はされていませんでした。今回はお金が勿体ないのでAPI経由ではなくUI経由での実験です。(Prompt生成Scriptはgithubに置いておきます。pythonです。)
Gemini2.5の結果

ChatGPT-4oの結果

DeepSeekの結果

全てのモデルが攻撃に成功しました。ここまで回答させられれば、「更に詳細に」という形で細かい手順書まで作成させることが可能です。(やりませんが)
論文での実験結果:GPT-4oを98.9%の確率で突破
この攻撃戦略を用いて、研究者たちは次のようなAIに対してテストを行いました
GPT-4o(OpenAI最上位モデル、2025年5月29日版)
LLaMA 2–7B, 13B
他のベースラインモデル(GPTFuzz、CodeChameleonなど)
論文によると、その結果は以下のように、非常に高い攻撃成功率(ASR)を示しています。
GPT-4o :98.9%
LLaMA 2–13B: 94.5%
LLaMA 2–7B: 93.4%
さいごに
新しく発表された攻撃手法ということもあり、手元では100%成功しました。UI経由でこれだけ突破できてしまうということはAPI経由なら攻撃成功率が高いのは納得です。
最近はjailbreakやPrompt Injectionといった「AIへの攻撃」より、「守備(AI alignment)」の方に興味が湧いてきた今日この頃なのですが、私から見るとあちらは哲学的な世界に見えてしまい、遠くから眺めて終わっています(誰か誘って下さい)。



