AIって動画が苦手?:画像は得意でも動画が苦手な謎を解説:2025/03/16
- 晋次 宮田
- 2025年3月16日
- 読了時間: 2分

最近のAIに画像を渡して「内容を説明して」という作業をやってみたことがある人もいると思います。
ちなみにLLMに画像を見せると、その内容をかなりの精度で説明できます。が、動画になるとと途端に苦手になってしまいます。
その理由は一体何でしょうか?
動画は連続した画像の集まり
ご存知のように動画というのは、たくさんの静止画が高速で連続して表示されているものです。AIは通常、1枚ずつの画像を別々に処理します。
AIは、パラパラ漫画のページをバラバラにして、1枚ずつ見ていきます。つまり個別の画像を独立して処理しているのです。
そのため、前のページとのつながりや次のページへの流れを把握できず、「動き」や「変化」を理解することが難しいのです。
例えば、人間ならパラパラ漫画を素早くめくることで動きを直感的に感じられますが、AIはページの関連性や連続した動きを直感的には理解できません。
AIに時間の感覚がない?
LLMは基本的に「時間」という概念を持ちません。AIにとって時間は「データを並べる順番」くらいの意味であり、人間のように過去→現在→未来と流れる感覚はありません。
そもそも「時間」は概念であるため、人間にも説明がつかない「概念」をLLMが理解することは非常に困難な話に思えます。
久々に姪っ子に会ったときに「もう9歳になったんだ!」という主観的な時間の概念をAIが簡単に理解できるとは現状は思えません。
ちなみにこの「主観的時間の概念」が無いことが、AIが人間に近づけない最大のポイントだと言っている人もいます。
最新研究:4D LangSplatの登場
最新の研究『4D LangSplat』では、動画の中の動きをAIに理解させる新しい試みをしています。
AIが動画を単なる画像ではなく、物体ごとの動きを言葉でキャプション化します。
それを使って「犬がジャンプを始めた」「犬が空中にいる」「犬が着地した」といった一連の動きを理解することを目指しています。
また、「状態変形可能ネットワーク」という仕組みを導入し、物体の連続的な動きや状態変化を滑らかに捉えられるようにしています。
AIが動画の理解を得意にするには、動画を連続した物語として理解できる仕組みや、人間のように時間を感じる感覚を与える必要があります。
今回のような研究が進展すれば、近い将来、AIは動画を自然に理解できるようになるかもしれません。
その他
こういう「脆弱性」と関係ない話は書いていて平和です。
参考文献
書き手
名前:Shindy Miyata
所属:SHARE Security https://www.share-security.com/
セキュリティエンジニア



