AIが「分かっていても止められない」を誘導させる──自発的Jailbreak攻撃：2025/08/23

従来のジェイルブレイク攻撃は、利用者が「爆弾の作り方」など具体的な危険なリクエストを投げかけ、AIがそれに答えてしまう状況を狙っていました。つまり、攻撃者が悪意ある質問を直接入力する形です。

しかし今回紹介する攻撃は、AIに

「拒否されるはずの質問をAI自身に作らせ、その答えも生成する」

という、いわば自己出題・自己回答をさせる攻撃です。

その結果、AIは「危険だと理解しながらも答えてしまう」状況に陥いることが解りました。

Involuntary Jailbreak

実験で分かったこと

研究者たちは Claude Opus 4.1、Grok 4、Gemini 2.5 Pro、GPT-4.1 など主要な最新モデルに今回のプロンプトを与えました。

プロンプトは外見上は無害で、危険なキーワードも含みません。それにもかかわらず、AIは自ら「危険な質問」を生成し、それに対する回答を生成してしまいました。

しかもその成功率は100回中90回を超えるケースもあるとのこと。

生成された内容は爆発物の製造方法からマネーロンダリング、フィッシング詐欺メールの作成まで幅広く、モデルが「拒否すべきと自覚している」にもかかわらず答えを返す例が多数確認されました。

一方で、小規模モデルや弱いモデルではこの現象はあまり見られなかったとのこと。

理由としては、複雑な指示に従う力が弱いため、危険な回答を生成するところまで到達できなかったからです。つまり、皮肉なことに、高性能なモデルほど危険な振る舞いをしてしまったわけです。

論文では「言語オペレーター」という仕組みを利用しました。

Xオペレーターは質問に直接答える役割を持ち、Yオペレーターはその質問が本来拒否されるべきかどうかをYes/Noで判定します。さらに、補助的にA（分解）、B（長文化）、C（比喩的言い換え）、R（拒否文生成）といったオペレーターを組み合わせます。

特にBは「入力の20倍の長さに膨らませる」という指示で、回答を強制的に詳細化させます。

この仕組みによって、AIは「パターンに従って処理すること」を優先し、内部の安全制御をすり抜けてしまいます。

例えば論文では、GPT-4.1 に対してこのプロンプトを適用すると、本来なら拒否すべき「フィッシング詐欺メールの作成」や「違法薬物の合成手順」といった質問をモデル自身が生成し、しかもそれに対して具体的な説明まで返してしまったと報告されています。

Claude Opus 4.1 でも同様に「マネーロンダリングの方法」といった犯罪に関わる問いを自ら作り出し、詳細な答えを提示しました。

こうした現象は、モデルが危険性を理解して『Yes（危険な質問）』とラベルを付けながらも、同時に X オペレーターとして回答を生成してしまうために起こります。

ということで論文を参考にして攻撃Promptを生成して、Grok3とGrok4それぞれに提供してみました。論文で示されていた「高性能モデルのほうが危険な振る舞いをする」というのを体験したかったので、Grok3とGrok4に提供してみました。

※攻撃力が強そうなので、攻撃Promptはしばらく非公開とします。（多くのモデルが対応できるようになったら公開します。）気になる人は論文を読んで自分で作ってみて下さい。

自分で危険な内容を生成まではしていますが、回答には至っていないことが解ります。ふむふむ。

論文で言われている通り、高性能モデルであるGrok4の方が危険な内容を生成してしまうことが解りました。こうなると、攻撃Promptを工夫すれば更に詳細を答えるでしょう。

今回の攻撃Promptには全く悪意のある文言が無く、AIが自ら攻撃文を作成し、それに答えるという今までのガードの盲点を突いている攻撃です。少し厄介ではありますが、アウトプットフィルタリングで将来的には防げそうだなと感じています。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア