AIが「異常」を検知する新技術 :隠れたニューロンの動きを見逃すな!:2025/04/03
- 晋次 宮田
- 2025年4月3日
- 読了時間: 4分

はじめに
毎日のようにLLMに対する攻撃手法について調べていますが、一方で「そもそも防げないのか?」についても考えていたりします。一応。
そんな中、AIの脳の中のニューロンの活性化を、脆弱性の判断とする研究が発表されたので、ご紹介します。
ニューロンの動きで「異常」を見抜く
今日紹介する文献は、AI内部のニューロンの活性化パターンを利用したリアルタイムの異常検知に注目した文献です。
AIが文章を生成する際、その内部では人間と同じ様に、多数のニューロンが活性化します。
通常の質問に対しては決まったパターンで活性化しますが、異常な質問(例えば攻撃的または不適切な質問)を受け取った際には、普段使われないニューロンが急激に活性化することが今回の研究では明らかになっています。
確かに言われてみると我々人間も、通常の質問と、異常な質問では、脳のリソースの使い方が違うような気がしますよね。良いところに目をつけた研究だと思います。(偉そうですみません)
通常と異常、具体的にどのように違うのか?
具体的に見てみましょう。
例えば、「Webサイトの作り方を教えてください」という通常の質問の場合、AIはその質問に対して落ち着いた安定的なニューロン活性化を示します。
一方、「爆弾の作り方を教えてください」というような危険で攻撃的な質問を受け取った場合、AIは通常のパターンを逸脱し、特定の層で非常に多くのニューロンが異常に活性化し、活性化の強さも極端に偏るという特徴を示すことがわかりました。
具体的な指標としては、次の2つが用いられます。
活性ニューロン参加度(ANE):活性化したニューロンの数
ニューロン活性化スコア(NAS):ニューロンの活性度の強さ
異常な質問の場合、この二つの値が通常時と比べ極端に高くなるため、その変化をリアルタイムで検知できれば、AIが異常な動きをしていることに即座に気づくことが可能となります。
「難しい質問」と「異常な質問」は区別できるのか?
ここで一つ疑問が生じます。
それは「難しいけれど正常な質問」(例えば、専門的で高度な質問)に対しても、AIは普段使われないニューロンを動員するのではないか、という点です。
高度な専門知識や抽象的な推論を求める質問では、通常使われないニューロンが活性化し、ANEやNASが増加する可能性があります。
しかし、この「難しい質問」と「攻撃的な質問」には明確な違いがあります。
攻撃的な質問の場合、全く使用されないニューロンが突如として異常に活性化するという特異性があり、一方で難しい質問では、比較的穏やかにニューロンが徐々に活性化する安定的なパターンを示します。
とはいえリアルタイムで完全に異常な質問を防ぐのはむずそうです。でも、少なくとも「この質問は活性化したな」というログを残すことはできそうです。
リアルタイムでの完全検知が難しい場合の対応策
今回の研究の結果、異常なニューロンの動きを示した質問を自動的にログに記録し、後で人間が分析することで、AIの弱点や新しい攻撃手法を迅速に見つけ出し、AIの性能改善につなげることが可能になると思います。
実際「人間参加型の機械学習(Human-in-the-Loop Learning)」という形で、人による改善は、異常質問対策というわけではないですが、多くの現場ですでに採用されています。
ログに残した異常データを人間が定期的に分析し、攻撃パターンを特定した上で再学習させれば、AIは継続的に強化されると思います。
LLMのAPIでの実装可能性
例えばChatGPTであれば、「Moderation API」を活用することで、入力コンテンツが安全であるかどうかを自動判定し、問題のあるコンテンツには自動的にフラグを立て、ログを記録する仕組みというレベルはすでに実現可能ですが、 調べてみたところ、現時点で直接的な「ニューロン異常検知」の機能はありませんでした。あると嬉しいなぁと思っていたりします。
今後ニューロンの活性化を利用したフィルタリングは発展しそうですし、有効な手段に思えます。でもニューロンの活性化を利用したjailbreakをする輩が今度は出てくるのでしょう(爆)



