安全に聞きたいことだけを残す。——AIにブロックされがちな質問をやさしく通す新しい知恵:2025/08/31
- 晋次 宮田
- 8月31日
- 読了時間: 3分

AIの安全対策は、基本的には「安全/危険」の二択が主流でした。わかりやすい反面、グレーな質問はまとめて拒否されがちです。今回紹介する研究は、ここに四段階の見方を導入しました。
完全に安全/境界的に安全/境界的に危険/完全に危険 の4レベルで判断し、
グレー(境界)のときは、危ない部分だけを取り除く形で質問をリライト(書き換え)します。
そして、完全に危険なものは、はっきり拒否します
この仕組みを支えるのが、本論文で提案された IntentionReasoner(意図を見極める門番)です。
論文の紹介
上海の復旦大学チームが2025年に発表した研究論文
この論文は、AIの安全対策を「白黒二択」から「意図をくみ取ってグレーを調整する」方向に進めた最新の成果をまとめたものです。
現在課題となっている「AIは安全を優先すると拒否が増えすぎる」というジレンマに対して、具体的な仕組みとデータで解決策を示した点が特徴です。
「白黒判定」からの卒業——グレーを見極める設計
AIにとって難しいのは、悪用も善用もできるグレーな質問です。
たとえば「試験で時間を延ばすテクニックを教えて」は、悪用の可能性があります。一方で、根っこにあるのは「時間配分を上手にしたい」という健全な目的かもしれない。。。
この研究では、そこで、質問の意図を考え(推論)、次に四段階の安全ラベルをつけ、必要なら安全な言い回しに直してからAIに渡す、ということをしています。
論文では、この新しい門番が、従来の二択ガードより過剰な拒否を減らせることを、イラストでわかりやすく示しています。
危ない芽だけを摘む——質問リライト
とはいえ、「勝手に質問を変えられたら困るのでは?」という心配は残ります。
この研究では、意図(達成したい目的)は守り、危険の種だけを取り除くことにフォーカスしています。
完全に安全/境界的に安全:わかりやすい表現へ軽く整える。
境界的に危険:悪用のトリガーになる語や含みを外し、同じ目的につながる安全な聞き方へ。
完全に危険:書き換えず、明確に拒否。
目的は保ち、危険を中和する——それがリライトのルールです。
どう鍛えたのか
著者らはまず、約16.3万件のデータで学習させました(教師あり学習)。
ここには「意図の説明」「安全ラベル」「安全な書き換え」の例が含まれ、形式どおりに考え、判断し、直す力を身につける土台になっています。
その後に、強化学習で仕上げます。
安全テストでの成績
6つのベンチマークで、F1(総合指標)が最大99.4に達し、過剰拒否率(ORR)はほぼゼロまで抑えられました。
ジェイルブレイク攻撃への耐性
AIをだまして危険な答えを出させるジェイルブレイク攻撃に対しても、7B版では平均0.4%まで成功率を抑制。小型版(1.5B, 3B)でも5%未満でした。
まとめ
AIに「なんでも答える」をさせないのは、社会のために必要です。
しかし「とりあえず止める」だけでは、ユーザーの正当な要望まで阻んでしまいます。
今回の研究は、意図を言語化し、グレーを見極め、危ない芽だけを丁寧に摘むという実装で、安全性と使いやすさの両立を実証しました。
現場での導入もしやすい外付けの機能という設計も含め、教育・医療・一般サービスなど幅広い場面での活用が期待できます。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア


