映像の文脈まで読むAIを、NVIDIAが本気で作った話—— 長時間動画に挑む新型AIの仕組みとは

晋次宮田
2025年7月13日
読了時間: 4分

映画やドキュメンタリーを見ていると「あっ、さっきの伏線だったのか！」と気づく瞬間がよくあります。

こういった「時間をまたいで意味を理解する力」は、私たち人間は自然とやっていると思います。

では、AIにそれができるか？

──それに挑んだのが、今回ご紹介するNVIDIA主導の研究です。

数十分もあるような長い映像を理解させようという本気の取り組みです。

Scaling RL to Long Videos

AIは「見えていること」しか理解できなかった

AIは、たとえば犬と猫の画像を見分けたり、ジャンプしてるか歩いてるかを判別したり

目の前にある情報を認識するのはかなり上手になってきました。

でも、人間のように時間を越えて意味をつなげることは、苦手としています。

たとえば

「この麻雀、相手の手はなんだと思う？」

「この人が今ここで怒っている理由、何に気づいたから？」

こうした問いに答えるには、以下のような力が必要です

映像の流れを数分〜数十分追い続ける
状況の変化・感情の変化を捉える
伏線や因果関係を理解する
なぜそうなったのかを説明する

こういった推論力が必要となります。これまでは、AIにとって「長すぎて見られない」「意味をつなげられない」苦手な領域でした。

NVIDIAは、AIに「じっくり考えさせる」ための土台を一から作った

では、どうやってこの壁を超えたのか？

NVIDIAは、次の3つを組み合わせて長時間動画に強いAIを育てました。

1.推論つきの動画データセットを自前で構築

まず彼らは、18,000本の長時間動画を使って、5万件以上の「推論付きQ&A」データを生成しました。

例えば以下の様なデータです。

質問：このサッカーの試合、どっちが勝ちそう？理由：「後半、アルゼンチンGKが感情的な安定を取り戻し、セーブ率が上昇…」答え：アルゼンチン。

こういった「質問→理由→答え」がセットになっていて、【時間】【目的】【空間】【物語】という4つの推論カテゴリに分類されているデータを作成ました。

2.教師あり学習＋強化学習の2段階トレーニング

次に、NVIDIAは以下のように段階的にAIを育てました。

第一段階（SFT）：人間が考えた正しい推論の流れをお手本にする
第二段階（RL）：自分で答えを出して、正しければ報酬を得る

これによって、「最初は真似をし、次に自分で考える」ステップを踏むようになり、

より深く、より柔軟に考えるAIへと進化させています。

3.長時間処理でも落ちない新システム「MR-SP」

数千フレームに及ぶ長時間動画を処理するには、膨大な計算リソースが必要になります。

そこでMR-SP（Multi-modal Reinforcement Sequence Parallelism）という仕組みを導入しています。

簡単に言うと

動画を分割して、複数のGPUで並列処理
エンコード結果をキャッシュして何度も使い回す
長いテキストや映像も「Prefill（事前読み込み）」を並列化して対応

結果、従来の最大2.1倍の速度で学習が進み、GPUのメモリエラー（OOM）も回避できたとのこと。

実力検証：GPT-4oやGeminiを超えた分野も

訓練されたモデル「LongVILA-R1」は、推論タスクを中心とした独自のベンチマーク「LongVideo-Reason-eval」で性能を測られました。

比較対象は、メジャーなモデルたちです。

モデル	平均精度（4カテゴリ）
GPT-4o	60.7%
Gemini-1.5-Pro	67.3%
LongVILA-R1（本研究）	67.9%

特に「空間推論（Spatial Reasoning）」では70.0%をマークし、他モデルを上回る性能を見せました。

つまり、物の位置や動きを推理する力においては、世界トップレベルのモデルと肩を並べる（あるいは超える）水準に達しているのです。

映画の違和感を見抜く：人間らしい直感に近づく推論例

この研究では、実際の動画を使った推論テストも豊富に行われました。たとえば

シナリオ

夫が出張から帰ってくる。だが妻は「この人、夫じゃない」と言う。なぜ？

🤖 LongVILA-R1の推論

「夫は左手に結婚指輪をしているはず」
「この男はしていない」
「髪型や服装は似ているが、リングの有無が決定的」
→ よって「別人」と判断。

ここでは、映像に映る小さな違い（指輪）に気づき、それを根拠に推論しています。

まさに人間の直感に近いAIの思考が始まっていることを示す例です。

NVIDIAの次の一手は「物語を理解するAI」かもしれない

この研究の面白さは、「画像認識が得意なAI」を、「文脈と物語を読み取れるAI」へと成長させた端にあります。

そしてこの方向性が意味するのは

教育：授業動画から生徒の理解度を分析
医療：長時間の手術映像を解析して異常を検出
ロボット：長期的な行動計画に基づく判断
スポーツ：戦術の流れを時系列で読み解く
映像制作：AIによる構成や編集のアシスト

など、時間を理解できるAIという新しい次元を指し示しているとも言えます。

おわりに

私たち人間は、目に見えるものだけじゃなく、「時間をまたいだ意味」や「背景の理由」まで考えて行動します。

この論文は、それをAIにやらせる方法を、データから学習方法、処理基盤まで一気通貫で示した

──まさにNVIDIAの本気が詰まった研究です。

書き手

名前：Shindy Miyata

所属：SHARE Security（http://security.share-yap.com/）

セキュリティエンジニア

x.com