言葉を使わずにイメージできるAI──より人間に近くなるかも:2025/05/21
- 晋次 宮田
- 2025年5月21日
- 読了時間: 3分

まだ5月だというのに、だいぶ暑くなってきました。私はビールが好きなので、暑くなってくるとビールの消費量が増えてしまいます。
さて、そんなビールの話の延長で恐縮ですが、居酒屋で「トイレ行きたいな」と思ったとき、皆さんはどう行動しますか?
おそらく、こんな感じではないでしょうか?
店内をなんとなく見回して、「あっちの方っぽいな」とあたりをつける。
看板や矢印を見つけて、「お、トイレマークがある」ときづく。
頭の中で「たぶん、あの壁の奥にあるな」とイメージを描く。
このとき、いちいち「私は今テーブルAにいる。トイレは北方向。まず2歩直進し…」といった言語化をしないですよね。酔っていたら尚更です。つまり我々はこのような時、言語ではなくイメージで考えているということがわかります。
AIはどうか?
それではAIはどうでしょう?現在主流のChatGPTをはじめとする多くのAIは、画像を渡された場合、その画像をまず「言葉に置き換えて」から考えるという手法をとっています。
先ほどの居酒屋のトイレの例で言うと
「このマークはトイレ」
「矢印が右を指している」
「右へ3マス、上へ2マス進もう」
といった感じで、AIは「言語ベース」で思考しています。しかし、目の前の空間や状況を、いちいち文章に直してから考えるというのは、人間から見るといささか非効率に感じます。
画像だけで考えるAI
もし人間みたいに「見たままのイメージ」で考えられるAIがいたらどうでしょうか?
そんな、“言葉を使わない思考”にチャレンジしたユニークな研究が、最近発表されました。
📖 Visual Planning: Let's Think Only with Images 日本語訳:ビジュアルで考える、AIの新しい思考法この研究の問いはシンプルです。
「AIは、言葉を使わずに、画像だけで考えることができるのか?」
この研究では、言語を一切使わず、画像だけを使って計画を立てるAIモデルを設計し、それが実際に機能するかを、複数の視覚ナビゲーションタスク(迷路のような問題)を通じて検証しました。
「画像だけで考えるAI」を育てる
このAIが使っているのは、大きく2段階の学習プロセスです。
Step1:画像の出し方を覚える
まずAIに、いろんな「迷路をランダムに進んだ画像の記録」を見せます。何がゴールかは教えませんとにかく「進んでいくと、次にこういう画像になる」という形式を学ぶだけです。言葉で説明することもありません。
Step2:ゴールに近づく方法を報酬で学ぶ
次にAIに対して「進めば進むほどゴールに近づいて報酬がもらえる」ということを行います。
ゴールに近づく画像を出せば +1点
無駄な移動は 0点
壁を通り抜けたら −5点
これを繰り返しすことで、AIは「こう進めば良さそうだ」というルールを学んでいきます。

結果は?
さて、どれくらい上手くいったのでしょうか?
論文では、3種類の迷路タスクで、従来のテキスト推論ベースのAIをすべて上回る精度を記録したとのこと。
また、以下の非常に興味深い結果もわかりました。
訓練していない新しい迷路でも一定の成功率でゴールに到達
AIに途中のステップ画像を出力しながら進ませることで、自分の位置と進捗を画像で把握していることが明確にわかった
人間のように、イメージで考えるAIへ
今回の研究が応用されることで、もっと自然に空間を動き回れるロボットが出来上がるかもしれませんし、言葉だけでなく、「阿吽の呼吸」のようなことも人間と交わすことができる時代が来るかもしれませんね。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア



