top of page
IMG_0546.JPG

AIは、世界を本当に理解しているのか?:2025/07/02

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年7月2日
  • 読了時間: 5分

野球やサッカーなので、ボールを追いかけるときに、頭の中で軌道を「計算」している人はほぼいないと思います。どこに落ちるかを、感覚的に知っているので、なんとなく「ここかな」という感じでボールを追いかけるのが普通だと思います。そしてその直感は、幼い頃から何度もボールを見てきた経験から身についたものです。

それにたいして、画像を読み取れるAIはどうでしょう?

たくさんの写真を見て、「これはボール」「これは空中」と理解・分類できるようになったAIに、「このボール、次はどこに飛んでいくと思う?」と聞いたら、答えられるのでしょうか?



AIが「見えている」とき、それは本当に「理解」しているのか


今のAIは、「画像を理解する」とよく言われます。たとえば、写真を見せると「猫がソファの上で寝ている」と言葉で説明してくれる様になりました。

でもその状態は、「猫がソファの上で寝ている」状態を本当に理解しているのでしょうか?本当に理解しているなら、「この猫が立ち上がったらソファから落ちそうだね」とか、「このあと左の棚に飛び乗りそう」といった、“その先”を考えられるはずです。

今回紹介する研究は、そんなAIが本当にその状態を理解しているのか?を調査したものです。

Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation (視覚言語モデルは内部世界モデルを持つか?原子的評価に向けて)


「世界モデル」って何?


私たちが、ボールが坂を転がる様子を想像できるのは、「重力がある」「丸いものは転がる」「坂があると下に向かう」…といった世界のルールを、“なんとなく”知っているからです。

研究では、AIがそのような「世界のルール」を持つには2つのステップが必要と定義しています。


  • 1つめは、知覚(Perception)です。

    • これは「今の世界がどうなっているか?」を正しく見る力。たとえば、「赤いボールが、右から左に動いている」と理解できるかどうかです。

  • 2つめは、予測(Prediction)です。

    • これは「このままいくと、どうなる?」と未来を考える力です。ボールが壁にぶつかって跳ね返るか、まっすぐ転がるか…といった予測をする部分です。


この研究では、AIにたくさんの映像や画像を見せ、この2つの能力を細かく分けて検証しました。

視覚、空間、時間、動き、量、因果関係…23種類の力を一つずつチェックしていっています。



動き・時間・因果関係──AIはどこまで自然を理解できている?


実験では、GPT-4oやGeminiなど、大手のAIたち15モデルが挑戦しました。評価はシンプルに「このあと、どうなると思う?」という問いに、いくつかの画像から“もっとも自然な未来”を選ばせるだけです。

結果はどうだったでしょう?

  • 色や形、大きさの比較など、静的な知覚はそれなりにこなせました。

  • しかし、「どちらが先に動いたか?」や「どの方向に動いているか?」となると、精度が一気に落ちます

  • とくに、「2つの物体が同時にぶつかったらどうなるか?」のような複雑な予測になると、

    多くのAIがランダムに近い精度しか出せなかったのです。

たとえば、人間なら「こっちのボールとこっちのボールがこの角度でぶつかれば、上に飛ぶはず」といった直感で分かるような状況で、AIは「左に飛ぶ」「右に飛ぶ」と答えてしまうことが多かったといいます。



たくさん見れば理解できる?


ここで、ある疑問が湧いてきます。「AIは、たくさんの映像を見て学習してるんでしょ?経験から理解できるんじゃないの?」

この考え方は、人間の学び方と近いものです。

実際、研究者たちもこの点には注目していました。

でも実験の結果、AIは「見たことがある組み合わせ」には対応できるが、初めての組み合わせには弱いことが分かりました。

たとえば


  • Aという動き→左に転がる

  • Bという動き→右に転がる


という2つは学習できても、

「AとBが同時に起きたら?」という組み合わせの結果を想像する力は、まだ足りないらしいのです。また、AIは「青い物体は速く動く」といった、見た目と動きの関係を誤って学習してしまう傾向もあるとのこと。人間なら簡単に切り離して考えられる要素なのに、AIはまだ混同してしまうようです。つまり、たくさん見ることと、「意味を理解すること」はまだ別問題だというわけです。



AIが世界を語るために必要なこと


では、AIが人間のように「未来を見通す力」を持つには、どうすればいいのでしょう?

研究者たちは、いくつかの方向性を示しています。


  • より豊かな知覚情報を与えること。

    たとえば2D画像だけでなく、3D空間・時間の連続性・力の流れといったデータを使う。

  • 因果関係を考慮した学習を行うこと。

    「なぜそうなったか?」という問いに答えるような学びが必要です。

  • 世界のルールを持つ「心の中の物理エンジン」をAIに持たせること。

    つまり、AIの中に小さな物理シミュレーションの仕組みを作り、

    その中で未来を“試してみる”ような構造を持たせるということです。


これらは、すでに一部の研究で実装され始めています。

ただし、まだ道のりは長く、「見たままを言葉にする」ことと「未来を思い描いて語る」ことの間には、大きな壁があるのです。



まとめ


この研究が教えてくれるのは、「AIが見えているからといって、分かっているとは限らない」ということです。

人間が自然な未来を想像できるのは、ただの経験だけではありません。無意識のうちに、物理法則や因果関係を頭の中に持っているからなのです。

AIにも、同じような「世界」を持たせられるか?という問いは、今後のAI進化にとって、とても大きなカギになりそうですね。


 
 
bottom of page