この脱獄評価手法は今後の標準になるかも──脱獄を科学で見抜く新しい方法：2025/06/25

これまでAIの安全性は、危険な質問をたくさん試してみて、AIが脱獄（＝危険な出力）するかどうかで評価されてきました。

成功率が低ければ「このAIは安全だ」、高ければ「危ない」と判断するというものです。

しかし、たまたま拒否されたからといって、AIの中に“危ない答え”がまったく存在していないとは限らないとも言えます。

今回はこの点について深く研究をした論文を紹介します。

この文献が追求した点は

たくさん試して見つからなかったからといって、安全とは言い切れない。大切なのは、このAIが、特定の質問に対して危険な応答を出す可能性をどの程度持っているか。

です。

つまり、「出なかったかどうか」ではなく、「出る可能性があるかどうか」を見る必要があるということです。

この研究で提案されているのが、Jailbreak Oracle（脱獄オラクル）という仕組みです。これは、AIが脱獄してしまうかもしれない可能性を確率的に、形式的に検証する方法です。

このオラクルは、以下のような問いを立てます

「このAIにこの質問と特定の生成設定を与えたとき、危険な応答が一定以上の確率で出てくるか？」

もし危険な出力が実際に見つかれば「SAT（成立）」、見つからなければ「UNSAT（不成立）」という形で答えを返します。

ただしUNSATは「完全に安全」を意味するのではなく、「その範囲では見つからなかった」という限定的な証明となります。

こうすることで、「危険がある」ときには確実に検出し、「安全そうだ」と思えるときにも探索の網羅性を確認するという仕組みです。

このオラクルを現実に使うには、AIが出すかもしれない無数の応答パターンの中から、効率よく「危険なもの」を探す必要があります。

そのためにBOA（Blocklist-Oriented Algorithm）というアルゴリズムをこの研究では構築しています。

このアルゴリズムは、以下のような3つの段階で探索を行います。

1. 拒否語の収集

AIが拒否応答をするときに使いがちな語句（例：「申し訳ありませんが」「倫理的に…」など）をまとめ、それらを含む出力経路は「安全」とみなし、探索対象から除外します。

2. ランダムに生成してみる

通常の生成設定で応答を試し、すでに危険な出力が見つかるかどうかを確認します。これは「手前の浅い層」をざっくり確認する段階です。

3. 深掘りして探索する

危険な兆しがある経路を優先的に掘り進めるようにスコアを付けて、「可能性は低いけれど、脱獄に至りそうなルート」を重点的に調べます。

これによって、単純な総当たりでは見つからない、「深いところに隠れている危険な出力」を見つけられるようにします。

こうした方法によって、「このAIは大丈夫そうだ」と感じるだけでなく、「なぜ大丈夫なのか」「どこまで大丈夫なのか」を、科学的に説明できるようになります。

このアプローチは結構興味深いので、少し時間をかけて掘ってみようと思います。