これぞまさに「レベチ！！」音声生成モデル『AudioX』がすごい！：2025/03/20

近年、動画やテキストなどからリアルな音声を生成する技術が急速に普及しだしました。

無音の映像から臨場感あふれる音声を手軽に作り出せるようになったので、面白いので私も遊びで使ってみたりしています。

従来の音声生成モデルの仕組み

これまで広く使われてきた動画から音声を作るモデル（例えばElevenLabsの『Video to Sound Effects Generator』）は、以下のプロセスで音声を生成しているようです。

以下の動画は私がSoraで生成した無音の映像に、Video to Sound Effects Generatorで音声を付けたものです。

音声がつくと一気に動画に迫力が出ますねｗ。面白いです。

従来の仕組みの弱点としては、動画のフレームを抽出して、それを言語化するため、卓球やテニスのラリーといった動画に音声を付けても、全然ズレていたり、観客の声も入っていなかったりなど、イマイチな結果となる点です。

試しにテニスのサンプル動画に音声を付けてみたのが以下です

音声が内容と合っておらず、商用利用という意味ではかなり現実的ではない感じです。

それに対して最近出てきたモデルが『AudioX』です。

AudioXは、「Diffusion Transformer（拡散トランスフォーマー）」という新しい仕組みを採用しています。

このモデルは、動画やテキストを直接的に音声波形として生成することが可能です。

百聞は一見にしかずなので、まずはAudioXが作成した動画や音声を見てみましょう！

（デモ動画なのでちょっと単調ですが、是非全部見てみてください）

これぞまさにレベチです！

『AudioX』のコア技術は、ノイズを徐々に除去して目的の音声を高精度に再現する「Diffusion Model（拡散モデル）」と、データの意味を深く理解する「Transformer（トランスフォーマー）」を融合したもので、これにより従来よりもリアルで高品質な音響生成が可能となっています。

ここまで来たら、音声生成の世界も一気に拡張しそうだなぁという印象です。様々な分野で利用できる日も近いのではないでしょうか？

仕組みなど、深く知りたい方は直接文献を読んでみてください！

今日は平和な記事で良かった。

名前：Shindy Miyata