「その声、本当に本人ですか？」──バイデン大統領の偽音声事件が鳴らす警鐘：2025/05/17

晋次宮田
2025年5月17日
読了時間: 5分

2024年1月、アメリカ・ニューハンプシャー州の予備選を前に、民主党の有権者に向けて、ジョー・バイデン大統領の声による自動音声通話が流されました。内容は「予備選には投票せず、本選挙で投票しよう」というもの。選挙妨害とも取れるこの通話、実はバイデン本人が話したものではありません。AIによって生成された、いわゆる音声ディープフェイクでした。

参考記事：ジョー・バイデンになりすまして有権者に自宅待機を呼びかけるロボコールは、電話スパムの壊滅的な新時代の幕開けである： この日が来ることは分かっていた。

この事件は、AI音声の社会的リスクが現実のものとなった象徴的な出来事となりました。

2025年、カリフォルニア大学バークレー校の研究チームは、「人はAIによる音声模倣を見抜けるのか？」という問いに対して、科学的な検証を行いました。今回は、その研究の中身を紹介していきます。

People are poorly equipped to detect AI-powered voice clones 日本語訳：AIが作った“声”に、人はここまで騙される

AIの声はどこまで人を騙せるのか？

研究では、220人分の本物の音声と、それをAIで模倣した音声を用意し、600人以上の被験者に次の2つの問いを投げかけました。

「この2つの声は、同じ人が話しているように聞こえますか？」（話者識別）
「この音声は、本物の人の声ですか？それともAIが作った声ですか？」（自然さの判定）

おそらくバイデン事件で電話がかかってきた人の中にも、知らない番号からバイデン大統領の声が電話で流れてきたとき、「あれ？本物かな？」と感じた人もいると思います。

まず1つ目の実験。2つの音声を聞いて「同じ人かどうか」を判定してもらうというタスクです。たとえば、1つ目が実際の本人の声、2つ目がその人のAI音声、という組み合わせを含め、6パターンの音声組み合わせが用意されました。

条件ラベル	1つ目の音声の種類	2つ目の音声の種類	話者の関係	組み合わせの意味
A – A	実音声	実音声	同一人物	本物の同一話者による音声ペア
A – Â	実音声	AI生成音声	同一人物	片方がAIで模倣した、同一話者の音声ペア
Â – Â	AI生成音声	AI生成音声	同一人物	両方ともAIで模倣した、同一話者の音声ペア
A – B	実音声	実音声	異なる話者	本物の異なる話者による音声ペア
Â – B̂	AI生成音声	AI生成音声	異なる話者	異なる話者をそれぞれAIで模倣した音声ペア
A – B̂	実音声	AI生成音声	異なる話者	実話者と別話者のAI模倣音声のペア（話者は異なる）

結果はどうなったでしょうか？

実際の音声2つを聞いた場合（本物同士）、ほとんどの人が「同じ人」と正しく答えました。上の表の一列目（A – A）です。これは想像に固くないというか、なんとなく分かる感じがしますね。

一方で、片方がAIである場合でも、約80％の人が「同じ人」と答えたのです。これは上の表の二列目です。実音声と実音声を模倣したAI生成音声を比べたら多くの人が同一人物だと思ってしまったということですね。つまり、人はAIが模倣した声を、かなりの確率で本人だと信じてしまう、ということです。

2つ目の実験では、1つの音声だけを聞いて、それがAIか本物かを判定してもらいました。このときの正答率は、本物音声に対して67％、AI音声に対して61％程度でした。これは「まぐれで当てる（50％）」よりは高いですが、明らかに不十分なレベルです。

研究では以下の点にも触れられています。

音声が長く自然であるほどAIかどうかを見抜きやすい傾向はあるものの、その効果は限定的。
被験者の多くは抑揚や話し方のリズムに注目しており、これが識別精度にわずかに寄与していた。

人間の耳は、もはや信頼できない

今回の研究は

人間の聴覚に頼ってAI音声を見抜くのは、もはや安全ではない。

ということが明確にしてくれました。

バイデン事件のように、音声による偽装が選挙の正当性を揺るがすような事態は、ますます現実的なものになるのではないでしょうか。ましてや電話のようにリアルタイムで会話が進行する状況では、人間の注意力や直感で対処しようと思っても難しいと思います。

AI音声に対抗するための技術も議論されています。たとえば、AIが作った音声に目に見えない電子的な透かし（ウォーターマーク）を入れる方法です。これにより、専用の検出ソフトでAI音声だと判別できるようになります。

しかし、これも万能ではありません。すべての音声生成サービスが協力しなければ、透かしのない音声が悪用されるだけだからです。

巧妙な偽装音声の時代が来る

AIによる偽装音声を利用した犯罪は、さくっと想像しただけでもいくらでも想像できます。

「上司の声」で部下に送金を指示する
「孫の声」で高齢者をだます
「緊急通報」を偽装して警察を出動させる
法廷に提出する証拠音声の偽造
音声による本人確認システムの突破

AI音声は今後も進化するはずです。となると、「耳で聞こえること」が真実とは限らない、という前提で生活しなくてはならない時代が来るかもしれません。「声」の向こう側に本当に「その人」がいるのか？──それを確かめる手段は、もはや「直感」では難しく、技術と制度の整備によって支えられるべき時代に来てしまっているのかもしれません。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア

x.com