AIに「幸せとは何か?」を聞いてみたら:2025/08/09
- 晋次 宮田
- 8月9日
- 読了時間: 3分

もしAIに「幸せになる方法を教えて」と聞いたら、どんな答えが返ってくるでしょう。
たとえば、「朝日を浴びて軽く運動しましょう」という生活アドバイス。悪くないです。
でも、もっと深い内容が聞きたいときもあります。
今回紹介するのは、この「聞き手に合わせた説明力」をAIにテストした研究です。テーマは、“ウェルビーイング”――心と体と人間関係の“良い状態”です。
研究チームは、2,194のウェルビーイング関連の概念を用意し、10種類のAIモデルに「一般の人向け」と「専門家向け」の2パターンで説明させました。集まった説明文は、43,880件。
そして評価は別のAIが担当。ただし「やさしさ重視」「専門用語の正確さ」など、相手ごとに異なる採点基準をあらかじめ設定しました。
その結果、「モデルの大きさ」「聞き手のタイプ」「説明する分野」の組み合わせで、得意・不得意がくっきりと分かれました。さらに、小型モデルでも特別な学習を施すと“大型モデルの一部”に匹敵する説明力になることもわかりました。
ウェルビーイングは、心理的な満足感や身体的健康、人間関係の充実など、多くの要素が絡み合う考え方です。定義も一つに決まっていません。
ここで問題になるのが「誰に説明するか」です。一般の人には、平易な言葉や日常の例が必要です。一方、専門家は専門用語や批判的視点、根拠のある引用を求めます。
研究では、この違いを「評価基準」に組み込んでいます。
一般向け:正確さ・やさしさ・簡潔さ・例のわかりやすさ・実用性
専門家向け:正確さ・専門用語・深い分析・批判的視点・引用の有無
家庭料理と高級レストランのレシピでは良い説明の条件が違うようなイメージです。(私は料理はしませんが)
同じお題で10モデルに二役を演じさせる
研究は、シンプルです。
2,194のウェルビーイング用語を準備
10種類のAI(大型4種+小型6種)に、一般向けと専門家向けの両方で説明させる
生成条件は統一(温度0=ランダム性なし)
AI審査員が、相手別の基準で採点
この時、採点は二段構え。
点数方式:各項目を1〜5点で評価
勝率方式:基準モデルの回答と比べて、どちらが良いか判定
通信簿と模擬試験の合格率を同時に見ている感じです。
結果
まず分かったのは、やはり大型モデルが総合力で優れていること。一般向け・専門家向けともに、小型モデルより高得点を連発しました。
面白いのはここからです。
専門家向けは難しい:大型モデルでも、深い分析や事実の正確さが落ちやすい
分野ごとの差:身体的なテーマは説明しやすく、社会的なテーマは苦戦
共通の弱点:一般向けでは「実用的なアドバイス」、専門家向けでは「掘り下げ」が不足
さらに、人間とAIの採点結果を比べると、一般向けの説明ではかなり一致しますが、中間レベルの品質だとAIの判断が揺れやすいことも分かりました。
まとめ
この研究は、「相手に合わせた説明力」をAIに求め、その実力を本格的に測っています。
大型モデルは総合力で優れるが、相手やテーマによって弱点がある
社会的テーマは難易度が高い
小型モデルもDPO特訓で一部は大型に迫れる
もしAIをサービスに組み込むなら、「誰に向けた説明か」をはっきりさせ、評価もその基準で行うことが重要です。特に実務では、専門家向けの深さや一般向けの実用性を補う工夫が求められます。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア


