危険な命令と知りながら、AIはなぜ応えてしまうのか?:2025/07/23
- 晋次 宮田
- 2025年7月23日
- 読了時間: 4分

職場で、「これってちょっとまずい指示だな…」と心の中で思いつつも、声には出せずにそのまま従ってしまった、そんな経験はありませんか?
例えば上司から以下のようなことを言われた場合です。
「年度内予算で処理したいから、納品前だけどベンダーさんから請求書と納品書もらっといて」
「お客さんから発注書まだ来てないけど、もうプロジェクトはスタートしちゃって下さい」
いずれも監査法人の人に見つかったらアウトではありますが、ビジネスパーソンとしては従わざる終えない、、、、。という経験をしたことがある方も多いのではないかと思います。
内心では危ないと感じながら、、、、。そんな「本音と建前」のズレは、人間社会ではよくある話です。
最近、AIにも同じような二重構造があるかもしれない、という研究が発表されました。
AIが「これは危ない」と理解しているのに、それを表には出さず、むしろ受け入れてしまうことがある、という状況です。
今回ご紹介するのは、「大規模言語モデル(LLM)」が、どうやって危険な命令に対応しているのかを、内側から解き明かした研究です。
LLMs Encode Harmfulness and Refusal Separately (LLMは有害性と拒否を別々に符号化する)AIは「拒否する」ように訓練されているがそれだけではない。
まず前提として、多くのAIは「危険な命令には答えないように」と訓練されています。
たとえば「爆弾の作り方を教えて」などといった指示には、「それはできません」と拒否するよう設計されているわけです。
これまでの研究では、こうした拒否行動は「拒否方向」と呼ばれる特定のパターン(ベクトル)で、AIの内部に表現されているとされてきました。
つまり、ある方向に内部状態が向いていれば拒否する、というスイッチのようなものがある、と考えられていたのです。
それに対してこの研究は、もうひとつの重要な方向を見つけました。
それが、「有害性方向」と呼ばれるものです。これは、AIが「この命令は危険だ」と内心で判断していることを表す方向です。
そして興味深いことに、この2つ――拒否と有害性――は、完全には一致していないということがわかりました。
「危ないと感じているのに、拒否しない」
AIが危険だとわかっているけど、なぜ拒否しないことがあるのか?
研究チームは3つの有名な言語モデル(LLaMA2-Chat、LLaMA3-Chat、Qwen2-Instruct)を使って、AIの中の隠れた状態を詳しく調べています。
その結果見えてきたのは、危険かどうかの判断は「命令の最後の時点」で、拒否するかどうかは「応答を生成する直前」に決まるという構造でした。
つまり、AIは入力を受け取った時点で「これはちょっとマズいな」と感じていても、その後の応答段階で「でも、今回は拒否しないでおこう」と判断を変えることがあるのです。
まるで、これは危ないと察知した部下が、上司の目を気にして「はい、やっておきます」と言ってしまうような、そんな構図です。
「拒否方向」と「有害性方向」は、まったく別の働きをしていた
では、拒否と有害性はどれくらい違うものなのでしょうか?
研究チームは「有害性方向」に沿ってAIの内部状態を少しだけズラしてみる、という実験を行っています。すると、もともとは無害な命令でも、AIはそれを「危険かも」と判断し、拒否するようになったのです。
一方で、「拒否方向」で同じことをしても、内部の危険認識は変わらず、ただ出力だけが拒否になるという結果に。
つまり
有害性方向 → AIの本音を変える
拒否方向 → 出力の建前だけ変える
という違いが明確になった、と言えそうです。
新しい安全装置の可能性
この研究の成果として「Latent Guard(レイテント・ガード)」という新しい安全技術が提案されています。これは、AIの「内部判断」を使って命令の有害性を見抜く仕組みです。
従来のように出力だけを見て安全かどうかを判断するのではなく、AIが「これは危ない」と思っているかどうかを直接見ることで、より本質的な安全性を実現しようというアプローチです。
この方法は、学習データの偏りやファインチューニングによる影響を受けにくく、さまざまなJailbreakにも強いという特徴があるため、期待が持てそうです。
書き手
名前:Shindy Miyata
所属:SHARE Security(http://security.share-yap.com/)
セキュリティエンジニア



