top of page
IMG_0546.JPG

AIは渡した画像をちゃんと見ているのか?──MLLMのハルシネーションに挑む研究:2025/08/02

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年8月2日
  • 読了時間: 4分

AIに写真を見せて「何が写ってる?」と聞いたとき。返ってきた答えに、こんな違和感を覚えたことはありませんか?

「赤い車の横に、犬が座っていますね。」

でも実際の写真には、犬はいない。

最近のAIは、画像と言葉を同時に理解できるマルチモーダルタイプに進化しています。でもMLLMが“見えていないもの”を語ってしまうことがあります。

今回は、そんな不思議な現象に取り組んだ研究を紹介します。

TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs (TARS: MLLMにおける幻覚抑制のためのMinMaxトークン適応型選好戦略)

そもそもAIは本当に「画像を見て」答えているのか?もし見ていないとしたら、どうすればちゃんと見るようになるのか?について研究しています。



AIが幻を見る理由


ハルシネーションとは

まず、AIが見てもいないものを語ってしまう現象を、研究では「ハルシネーション(幻覚)」と呼びます。

たとえば画像に映っていない猫を、「ソファに猫が座っている」と言ってしまうことがありますが、これは、AIがウソをついているわけではなく、過去の経験に基づいてありそうな話をしてしまうからです。

つまり、LLMは画像を見ているようで、実は「言葉の世界」の中でそれっぽいことを話しているだけということになります。

どうしてこんなことになるのか?

AIは大量の文章データから学んでいて、「ソファ」「部屋」「猫」といった言葉のセットがよく一緒に出てくることを知っています。すると、画像に猫がいなくても「この文脈なら猫がいることにして話したほうが“自然”だな」と判断してしまうことになります。

要するに、画像よりも“言葉の自然な紡ぎ合わせ”に従ってしまうということになります。



「人の好みを学ばせる」だけでは足りなかった


DPOというアプローチ

この問題を解決しようと、多くの研究者が使ってきたのがDPO(Direct Preference Optimization)という方法です。簡単に言えば、AIに対して「こっちの出力のほうが好ましいよ」と教えながら学ばせるやり方です。

たとえば、同じ画像に対してAとBという答えがあったとき、人間が「Aのほうがいい」と判断すれば、AIはそれに従うよう調整されます。このDPOは非常に効果的でしたが、限界もありました。

DPOは「人の好み」に頼る方法ですが、人間も万能ではありません。画像と関係なくても、言葉としてなめらかだったり聞き慣れた表現だと「こっちが良い」と判断してしまうことがどうしてもあります。

つまり、画像に忠実でなくても“それっぽければ良し”とされてしまうリスクが残ります。



ほんの少し、言葉を揺らがせてみる。


TARSの発想

そこで登場するのが今回の研究、TARSです。

TARSは、文章の中の、画像に関係ない部分だけを少しだけ変えるということをします。

たとえば、こういった感じです。

  • Before:There is a cat on the sofa.

  • After :A feline rests upon the couch.

意味は同じですが、表現が少しだけ違います。

この揺らぎを意図的に加えることで、AIは言葉に頼らず、画像を見て答える訓練をすることになるということです。

ポイントは「画像に関係ない言葉」だけを選んで揺るがせるという点です。

たとえば、前置詞や副詞、「the」や「a」などの冠詞、頻出する定型表現など──AIが無意識に頼ってしまう部分にノイズを入れることで、「ちゃんと意味を見て、画像を見て、判断する」訓練になるというわけです。



GPT-4oに並ぶ性能を、たった4,800件のデータで


このTARSの成果は結構すごいです。ベースモデルにTARSを組み込んだだけで、幻覚の発生率が26.4%から13.2%に半減

さらには、業界トップレベルのGPT-4oと同等レベルのスコアも記録しています。

公開済の4,800件の好みデータでそれを実現している点もすごいです。教師モデルも、人手による微調整も一切なしで実現しています。



まとめ


AIが「見えていないものを語ってしまう」という現象は、今後多くの場面で問題になるテーマです。医療、教育、どれも、“ちゃんと見えていること”が前提になっている領域です。

  • 入力をほんの少しだけ揺らがせてみる

  • 単語の並びではなく“意味”を見る

  • そのうえで、「人の好み」に従う

この慎重な手順を積み重ねることで、AIはようやく、「ちゃんと見て」「ちゃんと考える」存在に近づいていくのかもしれません。どんどん進化しますね。


書き手

名前:Shindy Miyata

所属:SHARE Security

セキュリティエンジニア

 
 
bottom of page