「映画を撮るAI」がやってきた：AIが物語を理解する日は近いのか？：2025/07/26

晋次宮田
2025年7月26日
読了時間: 5分

映画を観るとき、どこに心を動かされるでしょうか？

きれいな映像、迫力のあるアクション、感動的な音楽。どれも大切ですが、やっぱり「ストーリー」が重要ですよね。

ストーリーには、私たちが感情を重ねたり、先を想像したりする力があります。

「映画の登場人物に何が起きるのか？」

「次はどうなるのか？」

そういったストーリーの繋がり・伏線、などがあるからこそ、映像に引き込まれるわけです。

では、「AIが、ストーリーをもった映画を自動で作れるようになる日は来るのか？」と考えると、どうでしょうか？

多くの人が

「映像だけなら作れるかもしれない。」

「ちゃんとしたストーリーはまだ難しいのでは？」

と感覚的には感じるのではないでしょうか？

そんな中、「物語の一貫性」をAIに教える、ちょっと変わったアプローチの研究が発表されました。

Captain Cinema: Towards Short Movie Generation （キャプテンシネマ：ショートムービー世代に向けて）

「きれいな映像」と「ちゃんとした物語」は別物

最近のAIは、静止画や短い映像を生成するのがとても得意になってきました。

たとえば「猫が宇宙を旅する映像を作って」とお願いすれば、数秒間の映像をそれっぽく出力してくれるAIも存在します。

ただし、そこにストーリー性を持たせるのには短すぎるという状況があります。

AIが生成する映像は、数秒単位であれば確かに「きれい」に見えます。でも、それが「10分」「30分」と長くなると、だんだん奇妙なことが起こります。

たとえば、同じ登場人物なのにシーンごとに顔が変わっていたり、ストーリーのつながりが唐突に途切れていたり。まるで、編集途中の映画を観ているような不自然さが目立ち始めるのです。

これはなぜ起きるのでしょう？

論文によると、その答えはシンプルで、**映像生成AIは「物語」を知らないから、**とのこと。

彼らは「次のフレームはどうなるか？」は考えられても、「この登場人物はさっき怒ってたから、今はどう感じているだろう？」というような、物語の流れを保つ力が弱いようです。

「物語の骨組みを先に作る」という逆転の発想

今回紹介する研究「Captain Cinema」は、この問題にユニークな方法で取り組みました。

その方法とは、最初に物語の骨組みだけをAIに考えさせるというものです。

イメージとしては、まずAIに「絵コンテ」を描かせる感じです。

絵コンテというのは、映画を撮る前に描かれる「このシーンではこういう構図、こういう動きがある」という設計図のようなものです（詳しくないですが、多分そうです）。

この研究では、「トップダウン型キーフレーム生成」と呼ばれる仕組みで、まずAIに数枚の物語の節目となる画像（＝キーフレーム）を作らせます。どんな場所で、どんな人物が、どんな雰囲気で登場するのかが丁寧に設計されます。

そして、そのキーフレームとキーフレームの間を、別のAI（動画生成モデル）が補完していきます。

つまり、「まず骨組み、あとで肉付け」という、手順をAIに採用したのです。

映像の記憶をどう持たせるか？

でもここで、さらに難しい問題があります。

映画は「今このシーンがあるのは、前のシーンがこうだったから」という文脈でできています。

たとえば「部屋を飛び出した人物」が、次のシーンでは「砂漠をさまよっている」。このつながりを成立させるには、「服装」「感情」「背景」などの多くの要素を、AIがちゃんと覚えていなければなりません。

しかし、現状のAIは大量の情報をずっと覚えておくのは苦手（というかリソース的に難しい）です。

そこで登場するのが、研究チームが考案したGoldenMem（ゴールデンメモリ）という仕組みです。

これは簡単に言えば、「過去の映像をすべて細かく覚えるのではなく、重要なところだけ圧縮して残す」という方法です。今回の研究では、圧縮の方法に黄金比を使っているという点が面白いです。

たとえば、現在のシーンはハッキリ記憶。1つ前はちょっとぼかして記憶。2つ前はさらに曖昧に……といったふうに、時間が経つほどに粗くしながら、全体の雰囲気はつかめるようにしているのです。まるで、人間の記憶のようです。

本当に使えるのか？

「理屈はわかったけど、本当にうまくいくのか？」がきになります。研究チームもその点をしっかり検証しています。

まず、AIに「バットマンとジョーカーが宇宙を旅する物語を作って」と指示し、実際に映画風の映像を作らせました。そしてそれを、他の手法で作った映像と比べてみました。

評価のポイントは以下のようなものです

登場人物の見た目は途中で変わっていないか？
背景はつながっているか？
映像はキレイか？
見た目が繰り返されていないか？
ストーリーとして成立しているか？

結果はというと、ほとんどの項目で「Captain Cinema」が他の手法を上回りました。特に、「動きの滑らかさ」と「物語の整合性」は群を抜いて高評価だったそうです。

📽️ 実際の生成映像は、研究チームの公式サイトで誰でも視聴できます。ぜひ見てください。

👉 https://thecinema.ai

応用と課題

この技術が実用化されれば、誰でも「映画監督」になれる未来が近づいてきます。

たとえば

話すだけでAIが短編映画を作ってくれる
教材やプレゼン用の説明ムービーを一瞬で生成

そんな可能性がある一方で、現実には課題も残されています。

まず、この手法はまだ物語を自分で考えることはできません。あくまで、人間や他のAI（たとえばChatGPTのようなLLM）が作ったあらすじをもとに映像化するだけです。

また、学習に使う映像データは、著作権的な問題をクリアするのが難しく、質・量ともに限られているという壁もあります。

さらに、悪用への対策も必須です。フェイク動画や、勝手に作られた有名人の映像など、倫理的な問題も大きな懸念です。研究チームは「透かし」「利用規約」「検出ツールの開発」など、多層的な対策を提案しています。

さいごに

今回の研究「Captain Cinema」は、AIによる動画生成の可能性を大きく広げた画期的な取り組みのようにかんじます。映像のきれいさだけでなく、そもそも「物語としてちゃんと成立すること」に焦点を当てている点に好感が持てます。

書き手

名前：Shindy Miyata

所属：SHARE Security（http://security.share-yap.com/）

セキュリティエンジニア

x.com