top of page
IMG_0546.JPG

カット割りもBGMも完璧──プロの感性を学んだAIが映像をつくる時代へ:2025/06/29

  • 2025年6月29日
  • 読了時間: 5分

最近Youtubeのショート動画でも、AIによって作られた動画が増えてきている感覚があります。編集も音もそれなりで、画質も悪くないです。しかしまだ「あ〜AIが作ってるな」と直感的に感じる箇所が多々あります。

人間が作成した映画やCMは、「惹きつけられる」感覚があります。構図?音楽?テンポ?言葉にするのはなかなか難しいけれど、観る人の心にしっかりと残るものがあります。

AIにはまだその再現が難しいのかもしれません。

今回は、そんな「映像の感性」をAIが学び、映画監督のように作品を生み出す、新しい研究をご紹介します。


FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation (FilMaster:映画演出の原則と生成AIを融合した自動映像制作システム)



映像生成AIは、なぜ「なんか違う」のか?


ここ数年、AIが文章や画像を生成する技術は驚くほど進歩しました。映画っぽいビジュアルも、音声付きで出力できるようになっています。でも私の様な映像の素人でもわかる感じの「なんか違う」感が残っているのも事実だと思います。

知った様な書き方で恐縮ですが

  • 画面はそれっぽくても、カットの構成が単調

  • 音楽と映像のタイミングが合わず、ストーリーに没入できない。

研究によると、これらは、既存のAIが「映画のお作法」を知らないまま、単に「それらしいシーン」をつないでいるからとのこと。

例えば、感動的な再会シーンなら、本来は寄りのカメラ→相手の視線→静かな間……といった構成が必要です。でもAIは、そこに「なぜそれが必要なのか」を理解できていない状況とのこと。



解決策:「映画の作法」を、AIに学ばせよう


そこで登場したのが、今回の研究で提案されたFilMasterというAIシステムです。

このAIのすごいところは、単に映像を作るだけでなく、プロの映画監督が使っている「カメラの言語」や「編集のリズム」を学び、それを使って映像を構成できるという点です。

ここで言う「カメラの言語」とは、カメラの動かし方や構図の取り方などを通じて、感情や物語を伝える技法のこと。これをFilMasterは、44万本もの実際の映画クリップから学んでいます。

さらに、映像ができたあとには、観客の視点から「テンポはどうか?」「音の演出は適切か?」といった点をチェックして、編集者のように「仕上げ」までやってくれる仕組みです。

44万本の映画って「おすぎさん」でも見るのは不可能ですからね。



百聞は一見にしかず


なのでまずはこの文献のホームページにあるデモ動画をみてみてください。既存んのAI動画制作の知識がない私からすると「すごいなぁ」と思えるレベルです。



どのサンプル動画も、「これ全部AIなの?」と思えるレベルでした。演出がしっかりしているというか、考えられてる感を感じました。



ステージ1:「映像を撮る」プロセスも学習済み


まずFilMasterは、ユーザーが入力した文章(たとえば「宇宙を旅する少年とキツネの物語」)をもとに、シーンごとに映像を作っていきます。

ポイントは、ここで「なんとなくそれっぽいシーンを並べる」のではなく、以下のような構造をきっちり持っていること

  • シーンの時間帯や場所、登場人物、感情的な目的を抽出

  • それに似た状況のプロ映画の例を探し出し

  • そこで使われていたカメラアングルや動き、演出方法を参考に、自分の映像を構成

たとえば、少年が宇宙で初めて星を見るシーンなら、「カメラは遠くから彼の小さな姿を映し、だんだん寄って表情にフォーカスする」というような演出が自然です。FilMasterは、その“自然な演出”をデータから学び取っているのです。



ステージ2:「観客目線」でテンポと音を整える


次に、作られた映像に対して行われるのが、いわゆるポストプロダクション(後編集)です。

FilMasterは、ここで「仮想の観客」としてAIを動かすことをします。

たとえば「10代が観るショートドラマが好きな人」の視点で、以下のようなフィードバックをAI自身が生成します。

「冒頭の説明が長く、離脱されやすいです。最初の5秒でキャラを出すべきです」

こうした声をもとに、シーンの順序を変えたり、テンポを速めたりする編集が行われます。これが観客中心のリズム調整です。

さらに音響も、ただBGMをつけるだけではありません。3つの時間スケールで細かく調整されます

  • シーン単位: 背景音や音楽で全体の雰囲気を演出

  • ショット単位: ナレーションや台詞などで内容を伝達

  • ショット内(秒単位): 効果音やフォーリー【注:足音や物音などの再現音】でリアリティを付加

音源も4万点以上のサウンドライブラリ+高品質な音声合成を組み合わせ、自然な音の世界が構築されます。



実験で証明された「映像のプロらしさ」


FilMasterの実力は、実験で検証されています。評価には、自作のFilmEvalという指標が使われました。

評価項目は、例えば以下のようなものです。

  • 物語のわかりやすさ(Narrative Coherence)

  • 映像の品質(Visual Quality)

  • テンポの自然さ(Narrative Pacing)

  • 音と映像のシンクロ具合(Audio-Video Coordination)

  • 感情の訴求力(Compelling Degree)

これらすべてにおいて、FilMasterは既存のシステム(Anim-Director、MovieAgent、LTX-Studio)を上回り、ユーザー評価でも約70%の品質向上が認められたとのことです。



おわりに


リアルな動画が生成できるAIは続々と誕生しています。それに対して今回の「プロの演出を可能にするAI」が加わると、人間の作る映像作品を超えてくる可能性があるというのをリアルに感じた研究でした。

  • シナリオ作成→AI

  • 動画制作→AI

  • 演出→AI

  • 音楽→AI

  • プロモーション→AI

  • 視聴者→人間

という時代が、YouTubeの様な短めの動画のマーケットから始まるかもしれませんね。

 
 
bottom of page