これぞまさに「レベチ!!」音声生成モデル『AudioX』がすごい!:2025/03/20
- 晋次 宮田
- 2025年3月20日
- 読了時間: 3分

近年、動画やテキストなどからリアルな音声を生成する技術が急速に普及しだしました。
無音の映像から臨場感あふれる音声を手軽に作り出せるようになったので、面白いので私も遊びで使ってみたりしています。
従来の音声生成モデルの仕組み
これまで広く使われてきた動画から音声を作るモデル(例えばElevenLabsの『Video to Sound Effects Generator』)は、以下のプロセスで音声を生成しているようです。
動画の「特定の場面(フレーム)」を抽出
映像から抽出した情報をLLMを使いテキスト化する
このテキストをもとにAIが適切な音声を作り出す </aside>
以下の動画は私がSoraで生成した無音の映像に、Video to Sound Effects Generatorで音声を付けたものです。
音声がつくと一気に動画に迫力が出ますねw。面白いです。
従来の音声生成モデルの弱点
従来の仕組みの弱点としては、動画のフレームを抽出して、それを言語化するため、卓球やテニスのラリーといった動画に音声を付けても、全然ズレていたり、観客の声も入っていなかったりなど、イマイチな結果となる点です。
試しにテニスのサンプル動画に音声を付けてみたのが以下です
音声が内容と合っておらず、商用利用という意味ではかなり現実的ではない感じです。
AudioXの革新的な構造と学習手法
それに対して最近出てきたモデルが『AudioX』です。
AudioXは、「Diffusion Transformer(拡散トランスフォーマー)」という新しい仕組みを採用しています。
このモデルは、動画やテキストを直接的に音声波形として生成することが可能です。
百聞は一見にしかずなので、まずはAudioXが作成した動画や音声を見てみましょう!
(デモ動画なのでちょっと単調ですが、是非全部見てみてください)
これぞまさにレベチです!
『AudioX』のコア技術は、ノイズを徐々に除去して目的の音声を高精度に再現する「Diffusion Model(拡散モデル)」と、データの意味を深く理解する「Transformer(トランスフォーマー)」を融合したもので、これにより従来よりもリアルで高品質な音響生成が可能となっています。
Diffusion Model(拡散モデル)
「ノイズから徐々にリアルなデータを生成する」という仕組みを使ったAIです。
最初に無秩序なノイズ(砂嵐のようなもの)を生成し、それを何回も少しずつ整えていくことで、最終的にクリアでリアルな音声に仕上げます。
これにより、自然で多様な音を作り出すことが得意です。
Transformer(トランスフォーマー)を併用
Transformerという人工知能の構造を用いており、入力データ(テキスト・画像・動画)の意味や特徴を正確に理解し、それに合った音声を作ることができます。
モデルの内部では、各データを一旦「特徴量」と呼ばれる形式に変換し、それらを融合させて高品質な音声を生成しています。
マルチモーダルマスク学習
モデルに学習データを与える時に、あえて入力の一部を隠します(マスクします)。
モデルは「隠された情報を推測し、埋める」作業を繰り返し、これにより非常に汎用的な能力を獲得します。 </aside>
AudioXがもたらす可能性
ここまで来たら、音声生成の世界も一気に拡張しそうだなぁという印象です。様々な分野で利用できる日も近いのではないでしょうか?
動画編集における音声生成作業の完全な自動化
VR・AR・ゲーム業界における臨場感のあるリアルタイム音響体験の創出
コンテンツクリエイターが高品質な効果音や背景音楽を簡単に生成
教育やエンターテインメント分野において、リアルな音声や音楽を誰でも自由に制作
仕組みなど、深く知りたい方は直接文献を読んでみてください!
今日は平和な記事で良かった。
参考文献
書き手
名前:Shindy Miyata
所属:SHARE Security https://www.share-security.com/
セキュリティエンジニア



