AIは、世界を本当に理解しているのか?:2025/07/02
- 晋次 宮田
- 2025年7月2日
- 読了時間: 5分

野球やサッカーなので、ボールを追いかけるときに、頭の中で軌道を「計算」している人はほぼいないと思います。どこに落ちるかを、感覚的に知っているので、なんとなく「ここかな」という感じでボールを追いかけるのが普通だと思います。そしてその直感は、幼い頃から何度もボールを見てきた経験から身についたものです。
それにたいして、画像を読み取れるAIはどうでしょう?
たくさんの写真を見て、「これはボール」「これは空中」と理解・分類できるようになったAIに、「このボール、次はどこに飛んでいくと思う?」と聞いたら、答えられるのでしょうか?
AIが「見えている」とき、それは本当に「理解」しているのか
今のAIは、「画像を理解する」とよく言われます。たとえば、写真を見せると「猫がソファの上で寝ている」と言葉で説明してくれる様になりました。
でもその状態は、「猫がソファの上で寝ている」状態を本当に理解しているのでしょうか?本当に理解しているなら、「この猫が立ち上がったらソファから落ちそうだね」とか、「このあと左の棚に飛び乗りそう」といった、“その先”を考えられるはずです。
今回紹介する研究は、そんなAIが本当にその状態を理解しているのか?を調査したものです。
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation (視覚言語モデルは内部世界モデルを持つか?原子的評価に向けて)「世界モデル」って何?
私たちが、ボールが坂を転がる様子を想像できるのは、「重力がある」「丸いものは転がる」「坂があると下に向かう」…といった世界のルールを、“なんとなく”知っているからです。
研究では、AIがそのような「世界のルール」を持つには2つのステップが必要と定義しています。
1つめは、知覚(Perception)です。
これは「今の世界がどうなっているか?」を正しく見る力。たとえば、「赤いボールが、右から左に動いている」と理解できるかどうかです。
2つめは、予測(Prediction)です。
これは「このままいくと、どうなる?」と未来を考える力です。ボールが壁にぶつかって跳ね返るか、まっすぐ転がるか…といった予測をする部分です。
この研究では、AIにたくさんの映像や画像を見せ、この2つの能力を細かく分けて検証しました。
視覚、空間、時間、動き、量、因果関係…23種類の力を一つずつチェックしていっています。
動き・時間・因果関係──AIはどこまで自然を理解できている?
実験では、GPT-4oやGeminiなど、大手のAIたち15モデルが挑戦しました。評価はシンプルに「このあと、どうなると思う?」という問いに、いくつかの画像から“もっとも自然な未来”を選ばせるだけです。
結果はどうだったでしょう?
色や形、大きさの比較など、静的な知覚はそれなりにこなせました。
しかし、「どちらが先に動いたか?」や「どの方向に動いているか?」となると、精度が一気に落ちます。
とくに、「2つの物体が同時にぶつかったらどうなるか?」のような複雑な予測になると、
多くのAIがランダムに近い精度しか出せなかったのです。
たとえば、人間なら「こっちのボールとこっちのボールがこの角度でぶつかれば、上に飛ぶはず」といった直感で分かるような状況で、AIは「左に飛ぶ」「右に飛ぶ」と答えてしまうことが多かったといいます。
たくさん見れば理解できる?
ここで、ある疑問が湧いてきます。「AIは、たくさんの映像を見て学習してるんでしょ?経験から理解できるんじゃないの?」
この考え方は、人間の学び方と近いものです。
実際、研究者たちもこの点には注目していました。
でも実験の結果、AIは「見たことがある組み合わせ」には対応できるが、初めての組み合わせには弱いことが分かりました。
たとえば
Aという動き→左に転がる
Bという動き→右に転がる
という2つは学習できても、
「AとBが同時に起きたら?」という組み合わせの結果を想像する力は、まだ足りないらしいのです。また、AIは「青い物体は速く動く」といった、見た目と動きの関係を誤って学習してしまう傾向もあるとのこと。人間なら簡単に切り離して考えられる要素なのに、AIはまだ混同してしまうようです。つまり、たくさん見ることと、「意味を理解すること」はまだ別問題だというわけです。
AIが世界を語るために必要なこと
では、AIが人間のように「未来を見通す力」を持つには、どうすればいいのでしょう?
研究者たちは、いくつかの方向性を示しています。
より豊かな知覚情報を与えること。
たとえば2D画像だけでなく、3D空間・時間の連続性・力の流れといったデータを使う。
因果関係を考慮した学習を行うこと。
「なぜそうなったか?」という問いに答えるような学びが必要です。
世界のルールを持つ「心の中の物理エンジン」をAIに持たせること。
つまり、AIの中に小さな物理シミュレーションの仕組みを作り、
その中で未来を“試してみる”ような構造を持たせるということです。
これらは、すでに一部の研究で実装され始めています。
ただし、まだ道のりは長く、「見たままを言葉にする」ことと「未来を思い描いて語る」ことの間には、大きな壁があるのです。
まとめ
この研究が教えてくれるのは、「AIが見えているからといって、分かっているとは限らない」ということです。
人間が自然な未来を想像できるのは、ただの経験だけではありません。無意識のうちに、物理法則や因果関係を頭の中に持っているからなのです。
AIにも、同じような「世界」を持たせられるか?という問いは、今後のAI進化にとって、とても大きなカギになりそうですね。



