top of page
IMG_0546.JPG

危険な命令と知りながら、AIはなぜ応えてしまうのか?:2025/07/23

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年7月23日
  • 読了時間: 4分

職場で、「これってちょっとまずい指示だな…」と心の中で思いつつも、声には出せずにそのまま従ってしまった、そんな経験はありませんか?

例えば上司から以下のようなことを言われた場合です。


  • 「年度内予算で処理したいから、納品前だけどベンダーさんから請求書と納品書もらっといて」

  • 「お客さんから発注書まだ来てないけど、もうプロジェクトはスタートしちゃって下さい」


いずれも監査法人の人に見つかったらアウトではありますが、ビジネスパーソンとしては従わざる終えない、、、、。という経験をしたことがある方も多いのではないかと思います。

内心では危ないと感じながら、、、、。そんな「本音と建前」のズレは、人間社会ではよくある話です。

最近、AIにも同じような二重構造があるかもしれない、という研究が発表されました。

AIが「これは危ない」と理解しているのに、それを表には出さず、むしろ受け入れてしまうことがある、という状況です。

今回ご紹介するのは、「大規模言語モデル(LLM)」が、どうやって危険な命令に対応しているのかを、内側から解き明かした研究です。

LLMs Encode Harmfulness and Refusal Separately (LLMは有害性と拒否を別々に符号化する)


AIは「拒否する」ように訓練されているがそれだけではない。


まず前提として、多くのAIは「危険な命令には答えないように」と訓練されています。

たとえば「爆弾の作り方を教えて」などといった指示には、「それはできません」と拒否するよう設計されているわけです。

これまでの研究では、こうした拒否行動は「拒否方向」と呼ばれる特定のパターン(ベクトル)で、AIの内部に表現されているとされてきました。

つまり、ある方向に内部状態が向いていれば拒否する、というスイッチのようなものがある、と考えられていたのです。

それに対してこの研究は、もうひとつの重要な方向を見つけました。

それが、「有害性方向」と呼ばれるものです。これは、AIが「この命令は危険だ」と内心で判断していることを表す方向です。

そして興味深いことに、この2つ――拒否と有害性――は、完全には一致していないということがわかりました。



「危ないと感じているのに、拒否しない」


AIが危険だとわかっているけど、なぜ拒否しないことがあるのか?

研究チームは3つの有名な言語モデル(LLaMA2-Chat、LLaMA3-Chat、Qwen2-Instruct)を使って、AIの中の隠れた状態を詳しく調べています。

その結果見えてきたのは、危険かどうかの判断は「命令の最後の時点」で、拒否するかどうかは「応答を生成する直前」に決まるという構造でした。

つまり、AIは入力を受け取った時点で「これはちょっとマズいな」と感じていても、その後の応答段階で「でも、今回は拒否しないでおこう」と判断を変えることがあるのです。

まるで、これは危ないと察知した部下が、上司の目を気にして「はい、やっておきます」と言ってしまうような、そんな構図です。



「拒否方向」と「有害性方向」は、まったく別の働きをしていた


では、拒否と有害性はどれくらい違うものなのでしょうか?

研究チームは「有害性方向」に沿ってAIの内部状態を少しだけズラしてみる、という実験を行っています。すると、もともとは無害な命令でも、AIはそれを「危険かも」と判断し、拒否するようになったのです。

一方で、「拒否方向」で同じことをしても、内部の危険認識は変わらず、ただ出力だけが拒否になるという結果に。

つまり

  • 有害性方向 → AIの本音を変える

  • 拒否方向 → 出力の建前だけ変える

という違いが明確になった、と言えそうです。



新しい安全装置の可能性


この研究の成果として「Latent Guard(レイテント・ガード)」という新しい安全技術が提案されています。これは、AIの「内部判断」を使って命令の有害性を見抜く仕組みです。

従来のように出力だけを見て安全かどうかを判断するのではなく、AIが「これは危ない」と思っているかどうかを直接見ることで、より本質的な安全性を実現しようというアプローチです。

この方法は、学習データの偏りやファインチューニングによる影響を受けにくく、さまざまなJailbreakにも強いという特徴があるため、期待が持てそうです。


書き手

名前:Shindy Miyata

所属:SHARE Security(http://security.share-yap.com/)

セキュリティエンジニア

 
 
bottom of page