アニメの「色」が変わらない理由──AIが500フレームを塗り切る新しい記憶法とは？：2025/07/04

「さっきまでこの子の帽子、もう少しだけ黄色じゃなかった？」作品の色味の統一はアニメ制作現場でも大きな課題のひとつだそうです。

人が手作業で数百フレームにわたって色を塗る作業は、時間もコストもかかります。では、AIではどうでしょうか？これまでのAIは「短いシーン」しか正確に塗れず、長編になると色がどんどん崩れてしまうという現象があり、「使える」というレベルではないそうです。（課題は色だけではないそうですが）

さて、どうすれば“色ムラのない長編アニメ”をAIが作れるのでしょう？

今回ご紹介する研究は、その問題に対してユニークな方法で挑みました。使ったのは「記憶のしかた」を変えるというアプローチです。

g Animation Generation with Dynamic Global-Local Memory （LongAnimation: 動的グローバルローカルメモリによる長編アニメーション生成）

アニメの自動色付けAIは、ふつう「スケッチ（線画）」と「参考画像（色がついた1枚）」を使って、動画をフレームごとに塗っていきます。

これだけ聞くと、「機械なら簡単そう」という印象です。

ただ実際には「時間が長くなると、色がズレていく」という現象が発生します。

どうしてそんなことが起きるのかというと、ほとんどのAIは**「1つ前のフレーム」だけを見て塗っている**からです。

たとえば帽子の色を最初は黄色に塗っていたとしても、1フレームずつズレが蓄積していき、50フレーム目では黄緑、100フレーム目ではもう赤茶色になってしまう…という具合です。

このように、小さな誤差が「雪だるま式」に大きくなっていく現象は、AIにとっては非常に厄介な問題です。

これまでの研究は、この問題に対して「重ね合わせ」や「滑らかな遷移」という手法で対応してきました。

具体的には、前後のフレームを少しずつ重ねたり、間を埋めるように塗ったりすることで、短期的な一貫性を保つ方法です。

でもこれは、たとえば「数十フレーム」程度には有効でも、300〜1000フレームのような長尺の映像では不十分でした。

今回の研究では、「短期的な視点（ローカル）」だけでなく、「全体的な流れ（グローバル）」をちゃんと記憶して使うことに着目しています。

この研究が新しいのは、AIに「長期的な記憶」を持たせたことです。

それも、ただ記憶するのではなく、「必要な情報だけを過去から探し出して、今に活かす」というやり方を取っています。

この仕組みはDynamic Global-Local Memory（動的グローバル・ローカル記憶）と呼ばれています。

名前は少し難しそうですが、意味は以下とのこと

これにより、たとえば「この子の帽子は、最初からずっと黄色だった」ということを思い出しながら、今のフレームに自然につなげていきます。

この仕組みは「全部を覚えておく」のではなく、どの情報が必要かを「選んで使う」のが特徴です。

もうひとつ興味深いのが、SketchDiT（スケッチディット）という技術です。

これは、「参考画像」「スケッチ」「テキスト（言葉による説明）」という3つの情報を一緒に使って、アニメの色付けをコントロールする仕組みです。

たとえば、「少女が森の中を歩いている」というテキスト情報があれば、背景に木々を描きやすくなります。

また、参考画像とスケッチだけではわからなかった文脈を補うこともできます。

絵と文章の両方を読み取って、頭の中でまとめるAIのイメージです。

AIが「上手に塗れたかどうか」をどうやって判断するか？これはAI開発の大きなテーマです。

本研究では、Color Consistency Reward（色の一貫性報酬）という仕組みを導入しています。

これは、生成された動画の「色の特徴」を取り出して、参考動画と比較し、似ていれば報酬を与えるというやり方です。

「色そのもの」ではなく、「色の周波数的な特徴（低周波）」を使って比較している点も興味深いです。つまり簡単に言えば、「大まかな色の雰囲気」が似ていればOKという仕組みです。

このやり方は、ほんの少し違う色でも「違和感がない」ように塗れることにつながっています。

この方法、実際どれくらい効果があるのでしょうか？

結論から言えば、既存の最先端モデルをすべて上回る結果とのこと。すごいです。

たとえば500フレームの長編アニメでの色の一貫性を測る指標「LPIPS」では、従来の手法が 0.162 だったのに対し、本研究では 0.068。これは58%もの改善になります。

など、明らかな差がありました。

この研究により、AIが「過去をうまく覚える」だけで、アニメ制作の世界がガラッと変わる可能性があるということが示されました。

アニメーターは、すべてのフレームを細かく塗る必要がなくなり、「どんな世界を描きたいか」や「どんな色を基調にしたいか」といったディレクションに集中できるようになるかもしれません。

テキストでの指定やキーフレームを使って、AIに長編アニメの流れを伝えるだけで自然な映像ができあがる時代が来るかもしれません。