AIは渡した画像をちゃんと見ているのか？──MLLMのハルシネーションに挑む研究：2025/08/02

AIに写真を見せて「何が写ってる？」と聞いたとき。返ってきた答えに、こんな違和感を覚えたことはありませんか？

「赤い車の横に、犬が座っていますね。」

でも実際の写真には、犬はいない。

最近のAIは、画像と言葉を同時に理解できるマルチモーダルタイプに進化しています。でもMLLMが“見えていないもの”を語ってしまうことがあります。

今回は、そんな不思議な現象に取り組んだ研究を紹介します。

TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs （TARS: MLLMにおける幻覚抑制のためのMinMaxトークン適応型選好戦略）

そもそもAIは本当に「画像を見て」答えているのか？もし見ていないとしたら、どうすればちゃんと見るようになるのか？について研究しています。

ハルシネーションとは

まず、AIが見てもいないものを語ってしまう現象を、研究では「ハルシネーション（幻覚）」と呼びます。

たとえば画像に映っていない猫を、「ソファに猫が座っている」と言ってしまうことがありますが、これは、AIがウソをついているわけではなく、過去の経験に基づいてありそうな話をしてしまうからです。

つまり、LLMは画像を見ているようで、実は「言葉の世界」の中でそれっぽいことを話しているだけということになります。

どうしてこんなことになるのか？

AIは大量の文章データから学んでいて、「ソファ」「部屋」「猫」といった言葉のセットがよく一緒に出てくることを知っています。すると、画像に猫がいなくても「この文脈なら猫がいることにして話したほうが“自然”だな」と判断してしまうことになります。

要するに、画像よりも“言葉の自然な紡ぎ合わせ”に従ってしまうということになります。

DPOというアプローチ

この問題を解決しようと、多くの研究者が使ってきたのがDPO（Direct Preference Optimization）という方法です。簡単に言えば、AIに対して「こっちの出力のほうが好ましいよ」と教えながら学ばせるやり方です。

たとえば、同じ画像に対してAとBという答えがあったとき、人間が「Aのほうがいい」と判断すれば、AIはそれに従うよう調整されます。このDPOは非常に効果的でしたが、限界もありました。

DPOは「人の好み」に頼る方法ですが、人間も万能ではありません。画像と関係なくても、言葉としてなめらかだったり聞き慣れた表現だと「こっちが良い」と判断してしまうことがどうしてもあります。

つまり、画像に忠実でなくても“それっぽければ良し”とされてしまうリスクが残ります。

TARSの発想

そこで登場するのが今回の研究、TARSです。

TARSは、文章の中の、画像に関係ない部分だけを少しだけ変えるということをします。

たとえば、こういった感じです。

意味は同じですが、表現が少しだけ違います。

この揺らぎを意図的に加えることで、AIは言葉に頼らず、画像を見て答える訓練をすることになるということです。

ポイントは「画像に関係ない言葉」だけを選んで揺るがせるという点です。

たとえば、前置詞や副詞、「the」や「a」などの冠詞、頻出する定型表現など──AIが無意識に頼ってしまう部分にノイズを入れることで、「ちゃんと意味を見て、画像を見て、判断する」訓練になるというわけです。

このTARSの成果は結構すごいです。ベースモデルにTARSを組み込んだだけで、幻覚の発生率が26.4%から13.2%に半減。

さらには、業界トップレベルのGPT-4oと同等レベルのスコアも記録しています。

公開済の4,800件の好みデータでそれを実現している点もすごいです。教師モデルも、人手による微調整も一切なしで実現しています。

まとめ

AIが「見えていないものを語ってしまう」という現象は、今後多くの場面で問題になるテーマです。医療、教育、どれも、“ちゃんと見えていること”が前提になっている領域です。

この慎重な手順を積み重ねることで、AIはようやく、「ちゃんと見て」「ちゃんと考える」存在に近づいていくのかもしれません。どんどん進化しますね。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア