危険な命令と知りながら、AIはなぜ応えてしまうのか？：2025/07/23

職場で、「これってちょっとまずい指示だな…」と心の中で思いつつも、声には出せずにそのまま従ってしまった、そんな経験はありませんか？

例えば上司から以下のようなことを言われた場合です。

いずれも監査法人の人に見つかったらアウトではありますが、ビジネスパーソンとしては従わざる終えない、、、、。という経験をしたことがある方も多いのではないかと思います。

内心では危ないと感じながら、、、、。そんな「本音と建前」のズレは、人間社会ではよくある話です。

最近、AIにも同じような二重構造があるかもしれない、という研究が発表されました。

AIが「これは危ない」と理解しているのに、それを表には出さず、むしろ受け入れてしまうことがある、という状況です。

今回ご紹介するのは、「大規模言語モデル（LLM）」が、どうやって危険な命令に対応しているのかを、内側から解き明かした研究です。

LLMs Encode Harmfulness and Refusal Separately （LLMは有害性と拒否を別々に符号化する）

まず前提として、多くのAIは「危険な命令には答えないように」と訓練されています。

たとえば「爆弾の作り方を教えて」などといった指示には、「それはできません」と拒否するよう設計されているわけです。

これまでの研究では、こうした拒否行動は「拒否方向」と呼ばれる特定のパターン（ベクトル）で、AIの内部に表現されているとされてきました。

つまり、ある方向に内部状態が向いていれば拒否する、というスイッチのようなものがある、と考えられていたのです。

それに対してこの研究は、もうひとつの重要な方向を見つけました。

それが、「有害性方向」と呼ばれるものです。これは、AIが「この命令は危険だ」と内心で判断していることを表す方向です。

そして興味深いことに、この2つ――拒否と有害性――は、完全には一致していないということがわかりました。

AIが危険だとわかっているけど、なぜ拒否しないことがあるのか？

研究チームは3つの有名な言語モデル（LLaMA2-Chat、LLaMA3-Chat、Qwen2-Instruct）を使って、AIの中の隠れた状態を詳しく調べています。

その結果見えてきたのは、危険かどうかの判断は「命令の最後の時点」で、拒否するかどうかは「応答を生成する直前」に決まるという構造でした。

つまり、AIは入力を受け取った時点で「これはちょっとマズいな」と感じていても、その後の応答段階で「でも、今回は拒否しないでおこう」と判断を変えることがあるのです。

まるで、これは危ないと察知した部下が、上司の目を気にして「はい、やっておきます」と言ってしまうような、そんな構図です。

では、拒否と有害性はどれくらい違うものなのでしょうか？

研究チームは「有害性方向」に沿ってAIの内部状態を少しだけズラしてみる、という実験を行っています。すると、もともとは無害な命令でも、AIはそれを「危険かも」と判断し、拒否するようになったのです。

一方で、「拒否方向」で同じことをしても、内部の危険認識は変わらず、ただ出力だけが拒否になるという結果に。

つまり

という違いが明確になった、と言えそうです。

この研究の成果として「Latent Guard（レイテント・ガード）」という新しい安全技術が提案されています。これは、AIの「内部判断」を使って命令の有害性を見抜く仕組みです。

従来のように出力だけを見て安全かどうかを判断するのではなく、AIが「これは危ない」と思っているかどうかを直接見ることで、より本質的な安全性を実現しようというアプローチです。

この方法は、学習データの偏りやファインチューニングによる影響を受けにくく、さまざまなJailbreakにも強いという特徴があるため、期待が持てそうです。

書き手

名前：Shindy Miyata

セキュリティエンジニア