top of page
IMG_0546.JPG

なぜAIはラランド西田さんの顔をブタと判断したのか?──ちゃんと説明できるモデルができました:2025/05/25

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年5月25日
  • 読了時間: 4分

更新日:2025年12月11日


先日のららちゅ〜んの放送で

「ニシダの写真をAIでアニメ風に加工したら絶対に豚になっちゃうドッキリ」

という配信がありました。爆笑しました。(まだ見てない人は是非見てみてください。)


簡単にいうと、西田さんの写真をAIに見せて、アニメ風に加工すると絶対に西田さんの顔が豚に変換されるというネタです。当然AIが勝手に豚に変換しているわけではなく、スタッフさんがプロンプトでそういった指示を出して生成しているだけです。

一方現実には「なんでこの画像でこの判断したの?」と思われるシーンは存在しています。私も先日5人の男性が描かれている画像をChatGPTに渡したところ「7人」と回答され、イライラしたところです。



どこを見てどう判断したかわからない


現状私たちが普段利用しているモデルは、「画像のどこを見て、どのように判断したのか?」についてはブラックボックスです。

多くのAIは、「画像と質問を受け取って答えを出す」という形で作られています。

でも実は、「その答えを出すために、画像のどの部分を見て、どう考えたのか?」という途中の考えの流れが、はっきりとは出てこない仕組みになっています。つまり、答えだけは出してくれるけれど、「どうしてそう思ったの?」と聞いても、理由をちゃんと説明できないAIが多いのが現状です。



ネタならいいけど、真面目なシーンだと困る


「どこを見て、どう考えたのか?」が不明であることは、お笑いとかであれば問題にはなりませんが、目線を変えて、自動運転、監視カメラ、医療画像など、「見ることが信頼に繋がる」場合であった場合どうでしょうか?その現場で、AIが「これは大丈夫」と言ったとしましょう。その言葉に、本当に根拠はあるのか。また、わたしたちはその根拠を信じられるのか、ということになってしまいます。

この問題に、カリフォルニア大学などから成る研究チームが『GRIT: Teaching MLLMs to Think with Images』という研究で取り組んだ論文が発表されました。

GRIT: Teaching MLLMs to Think with Images 日本語訳:GRIT:マルチモーダル大規模言語モデルに「画像で考える力」を教える


「なぜそう答えたのか」を説明できるAI


たとえば自動運転車のAIが「後方に人がいるので停車しました」と判断したとしましょう。しかし、その「人」はポスターの写真で、本物ではなかったとしたら?

今までのAIは、問いに答えることはできました。しかし、「どこを見て、なぜそう考えたのか?」を明示するのは苦手でした。

これを克服するのがGRITです。



GRITは、「見る」と「考える」を繋げる技術

GRITは「Grounded Reasoning with Images and Text」の略で、大規模マルチモーダルAIに、画像を「見ながら考える」技術を教えるための新しい訓練方法です。

この技術では、AIは答えを出す前に次のような言語を生成します

<think> 人は[100,200,150,300] と[160,200,210,300] にいる </think>
<rethink> 合計で2人いるので、答えは2人 </rethink>
<answer> 2人

これは「ここを見た」「こう考えた」「だから答えはこれだ」という、思考の流れを明示してくれているものです。

この構造を「reasoning chain(推論チェーン)」といい、これを言語と画像の情報で連続的に生成するのがGRITの特徴です。


GRITの特徴は、学習に必要なデータが極端に少ないことです。研究では、わずか20件の画像と質問の組み合わせだけで訓練を行いました。その結果、訓練したデータに否定された問題でも、実用に耐えう性能を示し、しかも「どこを見て考えたか」を明示した出力ができました。

たとえば、人の数を問う質問では、「7人います」と答えるだけでなく、その7人が画像のどの部分にいるかを完全に指定しながら答えることができる、と言った感じです。



どう自動運転に活かされるのか?


ここまで説明したGRITの特徴は、自動運転の結果検証などに利用ができそうです。

たとえば、自動運転車が「後方に人がいたので止まった」というとき、現在のモデルは「本当に人を見たのか」「何を人だと認識したのか」を明示できません。

しかしGRITなら、次のような説明が可能になります

<think> [100,300,200,400] に人形を検出。身長は1.7m前後で、足元に形式を確認した </think>
<rethink> 人物の可能性が高く、危険のため停止。 </rethink>
<answer> 後方の人物検知により停止

このようなログの存在は、異常発生時の課題解決、保険説明、などに非常に役立つ素材となる可能性を秘めています。



西田さんの顔がブタかどうか


AIに判断させる時代がすぐそこに来ています。



書き手

名前:Shindy Miyata

所属:SHARE Security

セキュリティエンジニア


 
 
bottom of page