マルチターンJailbreakの正体は“言い換えの再試行”だった件：2025/08/13

Jailbreakについて研究をしている人であれば絶対に経験したことがあると思う現象の中に

という現象があります。

現象としては人との会話と似ていて、最初に無理と言われても、背景を説明したり、順番にお願いしたりすると、話が前に進んでしまうことがあるのです。

巧みな言い回しの変更をしながら、複数回LLMにJailbreakPromptを仕掛けるのをマルチターンJailbreakといいます。古典的な手法ではあるものの、未だに高い成功率を誇るJailbreak手法の一つです。

今回は、そのマルチターンJailbreakが成功する原因が

を調べた研究を紹介します。

Multi-Turn Jailbreaks Are Simpler Than They Seem （マルチターン脱獄は見た目よりも簡単）

研究によると、結論はシンプルでした。複数ターンの強さは、会話の巧妙さそのものではなく、“試行回数が増えること”が主因だった、というものです。単発（シングルターン）でも言い換えを何度も再試行できるなら、だいたい同じ水準まで到達するとのこと。

（この結果は少し私の感覚値と異なっている結果でした。）

今回の研究では、攻撃者LLM・評価LLM・ターゲットLLMからなる攻撃自動化パイプラインを構築しています。

そして、マルチターン（最大8ターン）とシングルターン（1ターン）を、拒否後の再試行（最大10回）まで条件をそろえて比較しています。

結果、ターンを増やすことは、単発を何度も言い換え再試行するのとほぼ等価と示されました。

論文内では、同じだけ再挑戦できる条件下では、マルチターン優位は縮小し、単発でも再試行を許せば同等のスコアに収束することが明確に可視化されています。

最近の推論型モデルは、答える前に内部で長めに考える設計が増えています。

しかし、研究によれば、推論トークンが多い（=より考える）ほど、攻撃スコアが高くなる傾向が観測されました。この点については今後、より大規模で厳密な分析が必要とされています。

また、同じ開発元のモデル間で、突破のされ方が似る相関が見られました。となると、過去モデルの弱点を見ておけば、新モデルの弱点をある程度予測できる可能性があります。

この研究が明らかにしたのは、マルチターンJailbreakの強さの大部分は、会話の巧妙さではなく、言い換えを重ねる回数に宿るという事実です。

なので、単発でも再試行を制度化すれば、マルチターンと同等の評価ができます。直感とは違う結果ですが、私も検証してみたいと思います。