声のトーンを読むAI──感情は音だけでわかるのか？：2025/06/23

電話の向こうの友達が「うん、大丈夫」って言ってるのに、なんだか声が沈んでる気がして、「ほんとに大丈夫？」って聞き返したくなる。そういった経験は誰にもあると思います。

人は、言葉は「平気」なのに、声のトーンや間の取り方で、「何かあったのかな」と感じることができます。（できない人もいますが）

つまり、人は、無意識のうちに声の空気を読んでいると言えるのかもしれません。

では、AIは、人間の「本当の気持ち」を読み取ることはできるのでしょうか？

音声生成のAIはすごく進化しています。最近では、AIが俳優のように、怒った声や嬉しそうな声を出せるようになってきました。

しかし、「聞く」方、つまり、人の声から本当の感情を読み取ることには、まだ課題あります。

これまでの研究の多くは、「怒り」「悲しみ」「喜び」といった基本的な6〜8個の感情だけを対象にしている研究が多いのですが、実際の人の感情はもっと複雑です。

たとえば「集中してる」「恥ずかしい」「ちょっと疲れてる」「バカにしてるけど楽しそう」といったような、微妙な感情は、これまでのAIでは捉えることが難しい状況です。

感情を読み取るAIを作るには、まずは学習用のデータが必要です。その点において、既存のデータには、以下の様な問題がありました。

学習素材が現実と比べてバリエーションがかなり少ない印象を受けます。

そのような今までの課題に対して、以下の研究では、合成音声で様々な感情音声を作り出すというアプローチで挑んでいます。

具体的には、音声生成AIに対して、「映画のオーディションみたいに感情をこめて話して」などの指示を出して、40種類もの感情音声を4,500時間分作り出しています。すごい根性です。

ここで作られた感情には、「怒り」や「喜び」だけでなく、「からかい」「無感情」「嫉妬」「酔っぱらい」「疲労」「集中」など、人間の複雑な感情状態がほぼ網羅されています。

でも、いくらAIが感情っぽい音を出しても、「本当にそう聞こえるか」は別問題です。

今回の研究では、6人の心理学の専門家が、12,600個の音声サンプルについて、「この音声には●●という感情が含まれているか？」を3段階（ない／ちょっとある／強くある）で評価しました。

一致しない場合は3人目、ランダムで4人目も入れて多重チェックをしています。

こうして、人間の耳で聞いて感じた感情の評価をベースにした、データセットが完成しました。

研究チームは、このベンチマークを使って、既存の有名モデルと、新たに開発したモッデルEMPATHICINSIGHT-VOICEを比較しました。

その結果

つまり、新モデルは「聞き逃さずに、しかもかなり人間っぽく聞き分けてくれる」ことが示されたのです。

論文によると

とのこと。これは、人間の評価者同士でも意見が分かれやすい感情だったので、AIだけの問題ではないと言えそうです。むしろ、「人間の曖昧さ」がそのままAIの限界にもなっている、という感じです。

以下の理由から、この研究は、「AIに感情を理解させる」という意味において良い結果を提供している様に思えます。

私はChatGPTと毎日の様に話しますが、そのうち「どうしました？元気がないですね？」とか言ってくる時代が来るかもしれません。