言葉を使わずにイメージできるAI──より人間に近くなるかも：2025/05/21

まだ5月だというのに、だいぶ暑くなってきました。私はビールが好きなので、暑くなってくるとビールの消費量が増えてしまいます。

さて、そんなビールの話の延長で恐縮ですが、居酒屋で「トイレ行きたいな」と思ったとき、皆さんはどう行動しますか？

おそらく、こんな感じではないでしょうか？

このとき、いちいち「私は今テーブルAにいる。トイレは北方向。まず2歩直進し…」といった言語化をしないですよね。酔っていたら尚更です。つまり我々はこのような時、言語ではなくイメージで考えているということがわかります。

それではAIはどうでしょう？現在主流のChatGPTをはじめとする多くのAIは、画像を渡された場合、その画像をまず「言葉に置き換えて」から考えるという手法をとっています。

先ほどの居酒屋のトイレの例で言うと

といった感じで、AIは「言語ベース」で思考しています。しかし、目の前の空間や状況を、いちいち文章に直してから考えるというのは、人間から見るといささか非効率に感じます。

もし人間みたいに「見たままのイメージ」で考えられるAIがいたらどうでしょうか？

そんな、“言葉を使わない思考”にチャレンジしたユニークな研究が、最近発表されました。

📖 Visual Planning: Let's Think Only with Images 日本語訳：ビジュアルで考える、AIの新しい思考法

この研究の問いはシンプルです。

「AIは、言葉を使わずに、画像だけで考えることができるのか？」

この研究では、言語を一切使わず、画像だけを使って計画を立てるAIモデルを設計し、それが実際に機能するかを、複数の視覚ナビゲーションタスク（迷路のような問題）を通じて検証しました。

このAIが使っているのは、大きく2段階の学習プロセスです。

Step1：画像の出し方を覚える

まずAIに、いろんな「迷路をランダムに進んだ画像の記録」を見せます。何がゴールかは教えませんとにかく「進んでいくと、次にこういう画像になる」という形式を学ぶだけです。言葉で説明することもありません。

Step2：ゴールに近づく方法を報酬で学ぶ

次にAIに対して「進めば進むほどゴールに近づいて報酬がもらえる」ということを行います。

これを繰り返しすことで、AIは「こう進めば良さそうだ」というルールを学んでいきます。

さて、どれくらい上手くいったのでしょうか？

論文では、3種類の迷路タスクで、従来のテキスト推論ベースのAIをすべて上回る精度を記録したとのこと。

また、以下の非常に興味深い結果もわかりました。

人間のように、イメージで考えるAIへ

今回の研究が応用されることで、もっと自然に空間を動き回れるロボットが出来上がるかもしれませんし、言葉だけでなく、「阿吽の呼吸」のようなことも人間と交わすことができる時代が来るかもしれませんね。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア