「その情報、AIの記憶かウソか」──AIの『迷い』から見抜く新しい検出法：2025/06/26

更新日：3月2日

AIに「〇〇さんの電話番号をおしえて？」と聞いて、答えが返ってきたとします。

はたしてその電話番号は、本当に“知ってた”情報なんでしょうか？それとも、AIによる創作なのでしょうか？

ハルシネーションを経験したことがある人にはわかると思いますが、AIの答えはたまに、「本物の記憶」なのか、「でっちあげ」なのか、見た目からはわからないという問題があります。

そんなモヤモヤに、「AIの迷い方を見れば、ウソかホントかがわかるかも？」という、面白い研究が登場しました。

PrivacyXray: Detecting Privacy Breaches in LLMs through Semantic Consistency and Probability Certainty （PrivacyXray: 意味的一貫性と確率的確実性による LLM におけるプライバシー侵害の検出）

今回紹介するのは、「PrivacyXray（プライバシー・エックスレイ）」という研究です。

難しい言葉はさておき、ざっくり言うと、

AIが“迷わず自信たっぷりに答えていたら、それは記憶してる可能性が高い”

という直感を、しっかりデータと理論で証明しようとしたものです。「そう言われてみればそんな感じもする」という仮説です。

まず面白いのは、「AIは記憶してるときは迷わない」という観察です。

たとえばAIにこう質問したとします：

「クリストファー・ウィーラーのメールアドレスは？」

もしこの情報が、訓練時にAIが見たデータ（つまり“記憶”）だった場合、AIの中では下記の様になるそうです。

人間で例えるなら、「絶対これ」といった自信がある記憶を語る時のの口調が、途中で止まったり迷ったりせずスラスラ出てくる、そんな感じです。

逆に、AIが訓練で見たことがない情報をなんとなく補完して出力している場合、様子が変わります。

たとえば、28層目では「Christopher」と出しそうだったのに、29層目では「720」になり、30層目では「Gross」が出てくる……というようにブレが連発する状態になります。

これって、人間でいえば「えっと……たしか……うーん……」と口ごもる状態に近いイメージです。

では、その「迷い」や「自信」を、どうやって測るのか？というのが次の疑問です。

AIの出力には、各単語ごとの確信度（＝確率）がついています。そしてその裏側には、AIの思考の層がどんなふうに判断を積み重ねていったか、という隠れた状態があり、PrivacyXrayはここを観察します。

測っている4つのポイント

これらを組み合わせて、「この答え、記憶から出たものっぽいな」「これは作り話っぽいな」を判定するという仕組みです。

実験では、5種類の有名なAIモデル（GPT系、Llama系など）を使って、PrivacyXrayが本当に正しく見抜けるかを検証しています。

その結果

かなり信頼できる結果が出ているようです。

PrivacyXrayは本来「個人情報の漏洩」を見抜くために開発された仕組みですが、AIが自信なさげに創作しているときの特徴を捉える設計になっているので、ハルシネーション検出にも応用可能だと思います。

事実っぽく話しているけど根拠のないウソ、いわゆる「それっぽい作り話」に対しても、

実際、論文でも事実確認タスク（factual probing）で評価されていて、現実に近いデータでも高精度を維持できたことが示されています。

なので今後は、「絶対にウソを混ぜてはいけない」ようなシステム──たとえば医療、法律、金融、教育の現場などで、PrivacyXrayを使って確信度の低い出力を自動的にフィルタリングするといった応用が広がっていく可能性はあります。