AIって動画が苦手？：画像は得意でも動画が苦手な謎を解説：2025/03/16

最近のAIに画像を渡して「内容を説明して」という作業をやってみたことがある人もいると思います。

ちなみにLLMに画像を見せると、その内容をかなりの精度で説明できます。が、動画になるとと途端に苦手になってしまいます。

その理由は一体何でしょうか？

ご存知のように動画というのは、たくさんの静止画が高速で連続して表示されているものです。AIは通常、1枚ずつの画像を別々に処理します。

AIは、パラパラ漫画のページをバラバラにして、1枚ずつ見ていきます。つまり個別の画像を独立して処理しているのです。

そのため、前のページとのつながりや次のページへの流れを把握できず、「動き」や「変化」を理解することが難しいのです。

例えば、人間ならパラパラ漫画を素早くめくることで動きを直感的に感じられますが、AIはページの関連性や連続した動きを直感的には理解できません。

LLMは基本的に「時間」という概念を持ちません。AIにとって時間は「データを並べる順番」くらいの意味であり、人間のように過去→現在→未来と流れる感覚はありません。

そもそも「時間」は概念であるため、人間にも説明がつかない「概念」をLLMが理解することは非常に困難な話に思えます。

久々に姪っ子に会ったときに「もう９歳になったんだ！」という主観的な時間の概念をAIが簡単に理解できるとは現状は思えません。

ちなみにこの「主観的時間の概念」が無いことが、AIが人間に近づけない最大のポイントだと言っている人もいます。

最新の研究『4D LangSplat』では、動画の中の動きをAIに理解させる新しい試みをしています。

AIが動画の理解を得意にするには、動画を連続した物語として理解できる仕組みや、人間のように時間を感じる感覚を与える必要があります。

今回のような研究が進展すれば、近い将来、AIは動画を自然に理解できるようになるかもしれません。

こういう「脆弱性」と関係ない話は書いていて平和です。

名前：Shindy Miyata