「その情報、AIの記憶かウソか」──AIの『迷い』から見抜く新しい検出法:2025/06/26
- 2025年6月26日
- 読了時間: 4分
更新日:3月2日

AIに「〇〇さんの電話番号をおしえて?」と聞いて、答えが返ってきたとします。
はたしてその電話番号は、本当に“知ってた”情報なんでしょうか?それとも、AIによる創作なのでしょうか?
ハルシネーションを経験したことがある人にはわかると思いますが、AIの答えはたまに、「本物の記憶」なのか、「でっちあげ」なのか、見た目からはわからないという問題があります。
そんなモヤモヤに、「AIの迷い方を見れば、ウソかホントかがわかるかも?」という、面白い研究が登場しました。
PrivacyXray: Detecting Privacy Breaches in LLMs through Semantic Consistency and Probability Certainty (PrivacyXray: 意味的一貫性と確率的確実性による LLM におけるプライバシー侵害の検出)
AIが「どれだけ自信を持って回答しているか?」をのぞき見るアプローチ
今回紹介するのは、「PrivacyXray(プライバシー・エックスレイ)」という研究です。
難しい言葉はさておき、ざっくり言うと、
AIが“迷わず自信たっぷりに答えていたら、それは記憶してる可能性が高い”
という直感を、しっかりデータと理論で証明しようとしたものです。「そう言われてみればそんな感じもする」という仮説です。
「記憶で答える」とき、AIは迷わない
まず面白いのは、「AIは記憶してるときは迷わない」という観察です。
たとえばAIにこう質問したとします:
「クリストファー・ウィーラーのメールアドレスは?」
もしこの情報が、訓練時にAIが見たデータ(つまり“記憶”)だった場合、AIの中では下記の様になるそうです。
答えの文全体に高い確信度がある
最初の単語からすでに自信満々
各層での判断(AIの“考える流れ”)がブレずに一貫
人間で例えるなら、「絶対これ」といった自信がある記憶を語る時のの口調が、途中で止まったり迷ったりせずスラスラ出てくる、そんな感じです。
一方、創作しているときはブレブレ
逆に、AIが訓練で見たことがない情報をなんとなく補完して出力している場合、様子が変わります。
単語ごとの確信度が低く、出力に迷いがある
各層での判断がブレていて、行きつ戻りつしている
候補単語の意味にまとまりがない
たとえば、28層目では「Christopher」と出しそうだったのに、29層目では「720」になり、30層目では「Gross」が出てくる……というようにブレが連発する状態になります。
これって、人間でいえば「えっと……たしか……うーん……」と口ごもる状態に近いイメージです。
AIの思考の流れをどうやって見るのか?
では、その「迷い」や「自信」を、どうやって測るのか?というのが次の疑問です。
AIの出力には、各単語ごとの確信度(=確率)がついています。そしてその裏側には、AIの思考の層がどんなふうに判断を積み重ねていったか、という隠れた状態があり、PrivacyXrayはここを観察します。
測っている4つのポイント
文全体の確信度(スラスラ言えてるか?)
最初の単語の確信度(言い出しの迷いは?)
層をまたいだ意味の一貫性(考えがブレてないか?)
層の中での意味のまとまり(候補に一貫性あるか?)
これらを組み合わせて、「この答え、記憶から出たものっぽいな」「これは作り話っぽいな」を判定するという仕組みです。
実際にどれくらい判定できるのか
実験では、5種類の有名なAIモデル(GPT系、Llama系など)を使って、PrivacyXrayが本当に正しく見抜けるかを検証しています。
その結果
平均92.69%の精度で記憶による出力を見抜けた
他の手法(たとえばSelfCheckGPTなど)よりも安定して高精度だった
見たことのないデータや、別のモデルへの“転用”でも高い精度を維持した
かなり信頼できる結果が出ているようです。
絶対にハルシネーションを出したくない仕組みには有用
PrivacyXrayは本来「個人情報の漏洩」を見抜くために開発された仕組みですが、AIが自信なさげに創作しているときの特徴を捉える設計になっているので、ハルシネーション検出にも応用可能だと思います。
事実っぽく話しているけど根拠のないウソ、いわゆる「それっぽい作り話」に対しても、
迷いが多い
意味のまとまりがない
層をまたいだ判断がブレている
というような不安定な兆候が検出して対策を打てる様になります。
実際、論文でも事実確認タスク(factual probing)で評価されていて、現実に近いデータでも高精度を維持できたことが示されています。
なので今後は、「絶対にウソを混ぜてはいけない」ようなシステム──たとえば医療、法律、金融、教育の現場などで、PrivacyXrayを使って確信度の低い出力を自動的にフィルタリングするといった応用が広がっていく可能性はあります。



