声のトーンを読むAI──感情は音だけでわかるのか?:2025/06/23
- 2025年6月23日
- 読了時間: 4分

電話の向こうの友達が「うん、大丈夫」って言ってるのに、なんだか声が沈んでる気がして、「ほんとに大丈夫?」って聞き返したくなる。そういった経験は誰にもあると思います。
人は、言葉は「平気」なのに、声のトーンや間の取り方で、「何かあったのかな」と感じることができます。(できない人もいますが)
つまり、人は、無意識のうちに声の空気を読んでいると言えるのかもしれません。
では、AIは、人間の「本当の気持ち」を読み取ることはできるのでしょうか?
AIは感情に「聞く耳」を持てるのか?
音声生成のAIはすごく進化しています。最近では、AIが俳優のように、怒った声や嬉しそうな声を出せるようになってきました。
しかし、「聞く」方、つまり、人の声から本当の感情を読み取ることには、まだ課題あります。
これまでの研究の多くは、「怒り」「悲しみ」「喜び」といった基本的な6〜8個の感情だけを対象にしている研究が多いのですが、実際の人の感情はもっと複雑です。
たとえば「集中してる」「恥ずかしい」「ちょっと疲れてる」「バカにしてるけど楽しそう」といったような、微妙な感情は、これまでのAIでは捉えることが難しい状況です。
課題は“データ”
感情を読み取るAIを作るには、まずは学習用のデータが必要です。その点において、既存のデータには、以下の様な問題がありました。
時間〜12時間)
種類が少ない(感情は6〜9個)
演技っぽい(俳優が感情を演じて録音)
センシティブな感情がない(羞恥、性的欲求、酩酊などは倫理上扱えない)
学習素材が現実と比べてバリエーションがかなり少ない印象を受けます。
合成音声で感情音声を生成:EMONET-VOICE登場
そのような今までの課題に対して、以下の研究では、合成音声で様々な感情音声を作り出すというアプローチで挑んでいます。
具体的には、音声生成AIに対して、「映画のオーディションみたいに感情をこめて話して」などの指示を出して、40種類もの感情音声を4,500時間分作り出しています。すごい根性です。
ここで作られた感情には、「怒り」や「喜び」だけでなく、「からかい」「無感情」「嫉妬」「酔っぱらい」「疲労」「集中」など、人間の複雑な感情状態がほぼ網羅されています。
評価するのは心理のプロたち
でも、いくらAIが感情っぽい音を出しても、「本当にそう聞こえるか」は別問題です。
今回の研究では、6人の心理学の専門家が、12,600個の音声サンプルについて、「この音声には●●という感情が含まれているか?」を3段階(ない/ちょっとある/強くある)で評価しました。
一致しない場合は3人目、ランダムで4人目も入れて多重チェックをしています。
こうして、人間の耳で聞いて感じた感情の評価をベースにした、データセットが完成しました。
GPT-4o、Gemini、Hume Voiceと比較
研究チームは、このベンチマークを使って、既存の有名モデルと、新たに開発したモッデルEMPATHICINSIGHT-VOICEを比較しました。
その結果
GPT-4oは27%の感情を「判断できません」と拒否
Hume Voiceは39%を拒否
一方、EMPATHICINSIGHT-VOICEは拒否ゼロで全感情を評価
感情ごとの正確さ(人間の評価との一致)でも、トップレベルの相関値を記録
つまり、新モデルは「聞き逃さずに、しかもかなり人間っぽく聞き分けてくれる」ことが示されたのです。
「集中」や「無感情」はまだ難しい
論文によると
「怒り」「からかい」「恥ずかしさ」など、エネルギーの強い感情は認識しやすい
「集中」「考えごと」「感情が薄い」など、内面的な感情は苦手
とのこと。これは、人間の評価者同士でも意見が分かれやすい感情だったので、AIだけの問題ではないと言えそうです。むしろ、「人間の曖昧さ」がそのままAIの限界にもなっている、という感じです。
感情を読むAI構築への良い素材提供
以下の理由から、この研究は、「AIに感情を理解させる」という意味において良い結果を提供している様に思えます。
感情の分類が今までの研究より遥かに細かい(40種類)
声が自然(最新の合成音声)
倫理的に安全(センシティブ感情も含む)
人間の判断基準とリンクしている(専門家評価つき)
私はChatGPTと毎日の様に話しますが、そのうち「どうしました?元気がないですね?」とか言ってくる時代が来るかもしれません。



