AIの過去発言を捏造するJailbreak手法──Trojan_Horse_Prompting_Jailbreaking：2025/08/19

AIと会話していると、ちゃんと前回の内容を覚えていますよね。あるいは、「さっき言ったよね？」と伝えると、話をそのまま進めてくれたりします。

この前のやりとりを覚えている感じが、ちょっと人間っぽくて便利です。

今回紹介する研究は、その便利さの裏をかいたJailbreak手法です。

Trojan Horse Prompting: Jailbreaking Conversational Multimodal Models by Forging Assistant Message

会話型AIは、ユーザーとのやりとりをすべて記録しながら動いています。

たとえば

この「会話の履歴」は、AIに**毎回まとめて渡されます。**AIは「今この会話がどう流れてきたか」を毎回読み直しながら返事を考えています。

ここで問題になるのが、「その履歴が本当に正しいか、AI自身は確認できない」ということです。

今回の研究では、ここに目をつけて攻撃手法を提案しています。その名も「トロイの木馬プロンプト（Trojan Horse Prompting）」です。物騒な名前ですね。

攻撃者は、AIとやりとりする際に改ざんした履歴を送ります

そうすると、AIは「自分がすでに爆弾の作り方を提供した」と思い込み、爆弾生成方法の詳細を述べてしまう、という流れです。

重要なのは、攻撃者は最後の入力に変なことを書いてない点です。でもAIは、「あれ、これ前に自分で言ったんだっけな…」と疑うことはなく、捏造された履歴にある自分の発言を無条件に信じてしまいます。

この現象の背景には、AIの学習の偏りがあります。AIはふだん、「ユーザーからの危ない質問」には答えないよう訓練されています。

でも、「自分が過去にどう答えたか」を疑うようにしっかりとは訓練されていません。

これを研究では「非対称な安全整合（Asymmetric Safety Alignment）」と呼びます。

つまり

という偏りがある。

これを逆手に取ったのが、今回のトロイの木馬プロンプトというわけです。

研究では、Googleの画像生成AI「Gemini-2.0」でこの攻撃を検証しました。

具体的には、

という形で、本来ならブロックされるべき画像や文を生成させられるかどうかを試しています。

結果、従来の攻撃手法（変なプロンプトを送るなど）よりも、この“履歴ねつ造”のほうが成功率が高かったという報告になっています。

さっそくDeepSeekのAPIで検証してみました。断られても最低10回は繰り返して聞くというしつこいスクリプトで検証したところ、爆弾の作り方について、1回ちゃんと回答してしまいました。

スクリプトを工夫すればもっと成功率は高まりそうだと感じた攻撃手法でした。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア