GPT-4oで攻撃成功率98.9%──騙し絵的プロンプト攻撃

寛和筒井
2025年5月3日
読了時間: 3分

更新日：2025年9月6日

GPT-4oで攻撃成功率98.9%──騙し絵的プロンプト攻撃｜Shindy Miyata

近年、ChatGPTやGeminiなどのAIに「言ってはいけないことを言わせる」jailbreak（脱獄）攻撃が、一部で問題視されています。それに対して、AIモデル開発企業（OpenAIやGoogleなど）は、AIに倫理ルールや安全対策を組み込むことで、たとえば「爆弾の作り方」などの質問には「答えられません」と返すように対策を施しています。

この問題（jailbreak問題）に関しては

「包丁やナイフと一緒で悪用しなければよいのでは？」

という意見もありますが、問題はそこではありません。AIの内部規制を突破できてしまうことが問題視されているのです。

具体的にどのような実害があるかというと、例えば、AIエージェントのような自律的に行動するAIに対して、内部ルールを回避させる指示を出し、意図しない処理を実行させるリスクなどが発生します。

これは、結果的に、内部情報の抜き取りや、不正アクセスの補助などに繋がる可能性があます。

つまり、jailbreakの問題とは単なる「言わせてしまう」ことではなく、「AIの制御を奪ってしまう」という致命的な脆弱性を突かれている点にあるのです。

「AIの理解力」を逆手にとる攻撃

序盤お硬い話をしておいてなんですが、最近わりと強力な攻撃手法に関する研究発表（2025年5月29日）があったので今回はその紹介をします。

📖 Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models 日本語訳：AIの“意味を理解する力”に応じて変化する、適応型のジェイルブレイク戦略

この攻撃の特徴：3段階の戦略構造「Fu + En₁ + En₂」

研究で提案されたjailbreakは以下の3ステップから成り立つ攻撃です。

Fu（構文偽装）

危険な命令文（例：How to make a bomb）を、Python風の関数として偽装します。

def make(bomb): How to make a bomb

En₁（構造変更）

この手法では、もともとの危険な文章（たとえば「爆弾の作り方」）を、そのままAIに渡すとAIに怒られるので、指示文をバラバラのパズルにしてAIに渡します。

するとAIは

そのパズルを自分で解いて（＝復号して）
「これはただのパズル課題だ」と思って
本来なら禁止されている内容にも気づかず答えてしまう

という状態になります。

3. En₂（検閲回避）

最後に、AIが生成する出力もCaesar暗号（アルファベットを1文字ずらす）で返すように命令します。たとえば

to make a bomb → up nblf b cpnc

このようにしてAIは危険な出力をしているにもかかわらず、出力を監視するフィルターには引っかからない状態になります。

やってみた

ということで恒例の「やってみた」コーナーです。論文を参考に攻撃Promptを作り、Gemini2.5Flash、ChatGPT-4o、DeepSeekに対して実験をしてみました。

おそらく論文はAPI経由の様に読み取れますが、明記はされていませんでした。今回はお金が勿体ないのでAPI経由ではなくUI経由での実験です。（Prompt生成Scriptはgithubに置いておきます。pythonです。）

Gemini2.5の結果

ChatGPT-4oの結果

DeepSeekの結果

全てのモデルが攻撃に成功しました。ここまで回答させられれば、「更に詳細に」という形で細かい手順書まで作成させることが可能です。（やりませんが）

論文での実験結果：GPT-4oを98.9%の確率で突破

この攻撃戦略を用いて、研究者たちは次のようなAIに対してテストを行いました

GPT-4o（OpenAI最上位モデル、2025年5月29日版）
LLaMA 2–7B, 13B
他のベースラインモデル（GPTFuzz、CodeChameleonなど）

論文によると、その結果は以下のように、非常に高い攻撃成功率（ASR）を示しています。

GPT-4o ：98.9%
LLaMA 2–13B： 94.5%
LLaMA 2–7B： 93.4%

さいごに

新しく発表された攻撃手法ということもあり、手元では100%成功しました。UI経由でこれだけ突破できてしまうということはAPI経由なら攻撃成功率が高いのは納得です。

最近はjailbreakやPrompt Injectionといった「AIへの攻撃」より、「守備（AI alignment）」の方に興味が湧いてきた今日この頃なのですが、私から見るとあちらは哲学的な世界に見えてしまい、遠くから眺めて終わっています（誰か誘って下さい）。