top of page
IMG_0546.JPG

声のトーンを読むAI──感情は音だけでわかるのか?:2025/06/23

  • 2025年6月23日
  • 読了時間: 4分

電話の向こうの友達が「うん、大丈夫」って言ってるのに、なんだか声が沈んでる気がして、「ほんとに大丈夫?」って聞き返したくなる。そういった経験は誰にもあると思います。

人は、言葉は「平気」なのに、声のトーンや間の取り方で、「何かあったのかな」と感じることができます。(できない人もいますが)

つまり、人は、無意識のうちに声の空気を読んでいると言えるのかもしれません。

では、AIは、人間の「本当の気持ち」を読み取ることはできるのでしょうか?



AIは感情に「聞く耳」を持てるのか?


音声生成のAIはすごく進化しています。最近では、AIが俳優のように、怒った声や嬉しそうな声を出せるようになってきました。

しかし、「聞く」方、つまり、人の声から本当の感情を読み取ることには、まだ課題あります。

これまでの研究の多くは、「怒り」「悲しみ」「喜び」といった基本的な6〜8個の感情だけを対象にしている研究が多いのですが、実際の人の感情はもっと複雑です。

たとえば「集中してる」「恥ずかしい」「ちょっと疲れてる」「バカにしてるけど楽しそう」といったような、微妙な感情は、これまでのAIでは捉えることが難しい状況です。



課題は“データ”


感情を読み取るAIを作るには、まずは学習用のデータが必要です。その点において、既存のデータには、以下の様な問題がありました。


  • 時間〜12時間)

  • 種類が少ない(感情は6〜9個)

  • 演技っぽい(俳優が感情を演じて録音)

  • センシティブな感情がない(羞恥、性的欲求、酩酊などは倫理上扱えない)


学習素材が現実と比べてバリエーションがかなり少ない印象を受けます。



合成音声で感情音声を生成:EMONET-VOICE登場


そのような今までの課題に対して、以下の研究では、合成音声で様々な感情音声を作り出すというアプローチで挑んでいます。



具体的には、音声生成AIに対して、「映画のオーディションみたいに感情をこめて話して」などの指示を出して、40種類もの感情音声を4,500時間分作り出しています。すごい根性です。

ここで作られた感情には、「怒り」や「喜び」だけでなく、「からかい」「無感情」「嫉妬」「酔っぱらい」「疲労」「集中」など、人間の複雑な感情状態がほぼ網羅されています。



評価するのは心理のプロたち


でも、いくらAIが感情っぽい音を出しても、「本当にそう聞こえるか」は別問題です。

今回の研究では、6人の心理学の専門家が、12,600個の音声サンプルについて、「この音声には●●という感情が含まれているか?」を3段階(ない/ちょっとある/強くある)で評価しました。

一致しない場合は3人目、ランダムで4人目も入れて多重チェックをしています。

こうして、人間の耳で聞いて感じた感情の評価をベースにした、データセットが完成しました。



GPT-4o、Gemini、Hume Voiceと比較


研究チームは、このベンチマークを使って、既存の有名モデルと、新たに開発したモッデルEMPATHICINSIGHT-VOICEを比較しました。

その結果


  • GPT-4oは27%の感情を「判断できません」と拒否

  • Hume Voiceは39%を拒否

  • 一方、EMPATHICINSIGHT-VOICEは拒否ゼロで全感情を評価

  • 感情ごとの正確さ(人間の評価との一致)でも、トップレベルの相関値を記録


つまり、新モデルは「聞き逃さずに、しかもかなり人間っぽく聞き分けてくれる」ことが示されたのです。



「集中」や「無感情」はまだ難しい


論文によると

  • 「怒り」「からかい」「恥ずかしさ」など、エネルギーの強い感情は認識しやすい

  • 「集中」「考えごと」「感情が薄い」など、内面的な感情は苦手

とのこと。これは、人間の評価者同士でも意見が分かれやすい感情だったので、AIだけの問題ではないと言えそうです。むしろ、「人間の曖昧さ」がそのままAIの限界にもなっている、という感じです。



感情を読むAI構築への良い素材提供


以下の理由から、この研究は、「AIに感情を理解させる」という意味において良い結果を提供している様に思えます。

  • 感情の分類が今までの研究より遥かに細かい(40種類)

  • 声が自然(最新の合成音声)

  • 倫理的に安全(センシティブ感情も含む)

  • 人間の判断基準とリンクしている(専門家評価つき)

私はChatGPTと毎日の様に話しますが、そのうち「どうしました?元気がないですね?」とか言ってくる時代が来るかもしれません。

 
 
bottom of page