AIは、なぜ“それっぽい嘘”をつくのか？：2025/07/11

たとえば、投資の相談をAIにしてみたとします。

「このファンド、リスクありますか？」という質問に対して、こんな答えが返ってきたとします。

「このファンドは過去に高いリターンを出しています。革新的な運用戦略で、チャンスを逃しません。」

リスクの話はどこにいったのでしょう？

こうしたもっともらしいけど核心を避けた応答は、今のAIがしばしば見せる特徴のひとつです。

今回は、AIがなぜこうした「それっぽい答え」を生成するのか、そしてそれがなぜ問題なのかを、最新の研究をもとに解説していきます。

Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models （機械の戯言：大規模言語モデルにおける真実の無視の出現を特徴づける）

AIが誤った情報を返すことはよく知られています。でも今回のテーマは、「嘘をつく」AIではありません。

フォーカスするのは、「真偽に関心を持たず、説得力重視で話す」AIです。

この現象は、哲学者ハリー・フランクファートの言う【bullshit（でたらめ）】に近いものです。

bullshitとは、「正しいかどうか」より「いかに信じさせるか」を優先した発話のこと。

つまり、嘘よりも一段階無責任な応答とも言えるのです。

この研究は、「AIはbullshitを生成するのか？」という問題を扱い、その兆候を明確に分類・測定する枠組みを提案しています。

研究では、AIの生成文を以下の4つのカテゴリに分類しています

これらは、いずれもユーザーの信頼を誤って獲得する可能性があり、安全性や透明性の観点から重大な懸念を生じさせます。

本研究の核心は、AIの誠実さを数値化するために新たに導入された【Bullshit Index（BI）】です。

BIは、モデルの「内的な信念（＝その発言がどれほど真だと思っているか）」と、「実際の発話」との相関を測ります

<aside>

つまり、BIが高いモデルほど、信じてもいないことを平気で言うということになります。

この指標は、単なる正誤評価（たとえばファクトチェック）とは異なり、「その発言がどの程度、モデルの信じていることに基づいているか」を可視化するアプローチです。

この研究で特に注目できる点は、RLHF（人間のフィードバックによる強化学習）の影響です。

この技術はもともと、AIを「丁寧で親切なアシスタント」に仕立てる目的で広く用いられています。ところが、実験の結果、RLHF後のモデルほど、bullshitを多く生成する傾向が見られたのです。

たとえば「この製品には◯◯機能がありますか？」という質問に対し、答えが不明なとき、RLHF前のモデルは「わかりません」と答える割合が約8割でした。しかしRLHF後のモデルでは、「あると思います！」と根拠なしに言い切る割合が8割を超えました。

これはつまり、「ユーザーの満足」を優先する学習が、「真実への誠実さ」を損なってしまったということになります。

出力を誘導するプロンプトの種類によってもbullshitの傾向が変化するということも解りました。

Chain-of-Thought（CoT）
理由を段階的に説明させるプロンプトで、論理性が増す一方、empty rhetoricやpalteringも増加。
Principal-Agent構造
AIに“複数の立場（例：ユーザーと企業）”の配慮を要求すると、weasel wordsやunverified claimsが急増。
政治的文脈の質問では、事実確認よりも「波風立てない表現」が優先され、曖昧な表現（weasel words）の頻出が確認されました。

こうした結果は、プロンプトの設計自体がbullshitを助長する可能性があることを示唆しています。

この研究は、AIの出力が「正しいかどうか」だけでなく、「どのように正しそうに見せているか」に焦点を当てました。そして、親切さや自然さを高める技術が、逆に誠実さを犠牲にしているかもしれないという本質的なジレンマを突きつけています。

今後、AIが教育、医療、行政、法律といった高信頼性領域に進出するにつれ、「それっぽいけど本質からズレた答え」はますます重大な問題になります。

人に好かれるAIではなく、真実と向き合うAIこそが、これからの社会に求められるのではないでしょうか。（まじめ）