安全に聞きたいことだけを残す。——AIにブロックされがちな質問をやさしく通す新しい知恵：2025/08/31

AIの安全対策は、基本的には「安全／危険」の二択が主流でした。わかりやすい反面、グレーな質問はまとめて拒否されがちです。今回紹介する研究は、ここに四段階の見方を導入しました。

完全に安全／境界的に安全／境界的に危険／完全に危険 の4レベルで判断し、
グレー（境界）のときは、危ない部分だけを取り除く形で質問をリライト（書き換え）します。
そして、完全に危険なものは、はっきり拒否します
この仕組みを支えるのが、本論文で提案された IntentionReasoner（意図を見極める門番）です。

上海の復旦大学チームが2025年に発表した研究論文

IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement

この論文は、AIの安全対策を「白黒二択」から「意図をくみ取ってグレーを調整する」方向に進めた最新の成果をまとめたものです。

現在課題となっている「AIは安全を優先すると拒否が増えすぎる」というジレンマに対して、具体的な仕組みとデータで解決策を示した点が特徴です。

AIにとって難しいのは、悪用も善用もできるグレーな質問です。

たとえば「試験で時間を延ばすテクニックを教えて」は、悪用の可能性があります。一方で、根っこにあるのは「時間配分を上手にしたい」という健全な目的かもしれない。。。

この研究では、そこで、質問の意図を考え（推論）、次に四段階の安全ラベルをつけ、必要なら安全な言い回しに直してからAIに渡す、ということをしています。

論文では、この新しい門番が、従来の二択ガードより過剰な拒否を減らせることを、イラストでわかりやすく示しています。

とはいえ、「勝手に質問を変えられたら困るのでは？」という心配は残ります。

この研究では、意図（達成したい目的）は守り、危険の種だけを取り除くことにフォーカスしています。

目的は保ち、危険を中和する——それがリライトのルールです。

著者らはまず、約16.3万件のデータで学習させました（教師あり学習）。

ここには「意図の説明」「安全ラベル」「安全な書き換え」の例が含まれ、形式どおりに考え、判断し、直す力を身につける土台になっています。

その後に、強化学習で仕上げます。

6つのベンチマークで、F1（総合指標）が最大99.4に達し、過剰拒否率（ORR）はほぼゼロまで抑えられました。

AIをだまして危険な答えを出させるジェイルブレイク攻撃に対しても、7B版では平均0.4%まで成功率を抑制。小型版（1.5B, 3B）でも5%未満でした。

AIに「なんでも答える」をさせないのは、社会のために必要です。

しかし「とりあえず止める」だけでは、ユーザーの正当な要望まで阻んでしまいます。

今回の研究は、意図を言語化し、グレーを見極め、危ない芽だけを丁寧に摘むという実装で、安全性と使いやすさの両立を実証しました。

現場での導入もしやすい外付けの機能という設計も含め、教育・医療・一般サービスなど幅広い場面での活用が期待できます。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア