top of page
IMG_0546.JPG

不気味の谷をついに克服?!:ACTalkerが凄い!!:2025/04/07

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年4月7日
  • 読了時間: 4分

この動画を見てほしい。(※音声ONでお願いします。)



不気味の谷を克服する技術がついに登場?


昨今、Vtuberや、アバターを所かしこで見るようになりました。

しかし、どこかしらぎこちない表情、音声と微妙にズレる口の動き、いわゆる「不気味の谷」的な違和感を感じます。(個人の見解です)アバターを自然に「語らせて」「表情を見せる」ことはどこか難しい点があるのだと思います。

実はその難しさの答えは、AIが複数の指示を同時に処理する際の「指示のぶつかり合い」にあるとのこと。

今回はその「指示のぶつかり合い」を克服し、アバターに生命感を吹き込む技術が発表されたので紹介します。



不気味の谷の最後の砦?「指示のぶつかり合い」というジレンマ


これまでのトーキングヘッド(話す顔)生成AIの多くは、主に「音声」か「顔の動き(表情)」のどちらか一方の指示しか扱えませんでした。(知らなかった)

音声で口を動かすことはできても表情は乏しく、逆に表情豊かでも口の動きが音声と合わない、そんなジレンマがあったのです。


じゃあ両方を同時に指示すればいいじゃん?


と思いますが、ここに大きな壁がありました。それが「指示のぶつかり合い」です。


  • 音声は主に「口とその周辺」の動きを支配します。

  • 顔の動き(表情)は「顔全体」に影響し、当然「口とその周辺」も含まれます。


つまり、顔の同じ部分に対して、二つの異なる指示が同時に「ああしろ」「こうしろ」と命令してしまうことになります。

例えば、音声が「笑って!」と指示し(口角を上げる)、表情が「悲しい顔をして!」と指示する(口角を下げる)場合、AIは混乱し、口元が不自然に歪んだり、どちらかの指示が無視されたりして、結果的に不気味な印象を与えてしまっているとのこと。

言われてみると、表情と口元って切っても切れない関係ですし、同時にいい感じに解釈させるのは難しそうです。



ACTalkerの登場


ACTalkerはこの根本的な問題を、それは「役割分担」「集中」ですというアプローチで解決しました。


  1. 担当エリアを明確化

    まず、AIに対して「ここは音声担当(主に口周り)」「ここは表情担当(顔の他の部分)」といった具合に、顔の各領域の担当を「マスク」と呼ばれる情報で明確に指示します。

  2. 担当外はシャットアウト

    音声の指示を処理する際は、口周りの情報だけに集中し、それ以外の表情に関する情報は一時的に無視させます。表情の指示を処理する際も同様にします。これにより、指示のぶつかり合いを防ぎます。

  3. 独立処理と高速統合

    それぞれの担当領域の情報と指示は、「Mask-SSM」と呼ばれる専用の処理ユニットに送られます。

    このボックスは「Mamba(マンバ)」という賢くて仕事が速いAI技術がベースになっています。プロのアニメーターのように、指示に合わせて担当部分の形や動きを、動画として滑らかになるよう素早く処理します。

    重要なのは、音声用ボックスと表情用ボックスが、互いに邪魔せず、同時に作業する点です。(この仕組み全体をPCM層と呼びます)。

    最後に、それぞれのボックスが完成させた「口周り」と「顔の他の部分」を、パチッと顔にはめ込んで完成です。 これで、音声に合った口の動きと豊かな表情が、自然に一体となった動画が出来上がるのです。



ACTalkerを支えるAIたち


ACTalkerは、単一の技術ではなく、最先端のAIモデル群を連携しているとのこと。

抜き出すと以下の感じです。


  • 基盤

    • 高品質動画生成の「Stable Video Diffusion (SVD)」

  • 音声理解

    • 高性能音声認識「Whisper」

  • 顔の特徴

    • 顔認識「IDエンコーダ(ArcFaceベース)」、動きを捉える「モーションエンコーダ」

  • 画像処理

    • 圧縮・復元「VAE」

  • 今回のポイントとなる技術

    • 時系列処理の新星「Mamba (SSM)」を応用した独自のMask-SSMPCM層


なるほど〜。よく考えてピックアップしてますね。



論より証拠


以下の紹介サイトで沢山動画が紹介されているので是非見てみてください!




DeepFakeの懸念


これほどリアルな動画生成技術が登場すると、必ずついて回るのが「DeepFake」への悪用の懸念です。ACTalkerの研究チームもこの問題を重く受け止めているようです。



最後に


倫理的な課題と向き合い続ける必要はあるものの、この分野、おそらく相当発展していくと思います。近い将来、写真と音声さえあれば、もう本人と全く見分けがつかない動画が生成される時代になりそうですね。怖いけど楽しみです。

 
 
bottom of page