AIが「物語の良し悪し」——をわかる日がくるかも？創作のセンスを判定する新しい試み：2025/07/08

晋次宮田
2025年7月8日
読了時間: 4分

物語を読んだ後に「なんか良かった」「なんかピンとこなかった」と感じたことは、誰にでもあることだと思います。

でも、その「なんか」を具体的な言葉で説明するのって意外と難しいですよね。

しかも、それがAIの書いた文章だったら、どうでしょう？

「意外と読めるけど心に残らない」「整ってるけど面白くない」——私はそんな感想を持つことがあります。

では、AI自身に「この物語、面白いと思う？」と聞いたとき、果たして正しく判断できるのでしょうか？

今回ご紹介する研究は、この問いに取り組んだもになります。

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing （LitBench: 創作文の信頼性の高い評価のためのベンチマークとデータセット）

創作には正解がない

現状のAIが得意とするのは、明確な答えが存在するタスクと言われています。これはイメージがつきます。たとえば数学の問題、翻訳、コードのバグ修正などには「これが正しい」という正解があるので、学習させやすいため、AIも得意とする領域となっています。

ところが、創作の世界には「正解」がありません。同じお題でも、ホラーにもできればコメディにもできる。短くても刺さる話もあれば、長編でじっくり語るタイプもあります。

つまり「複数の正解が共存する世界」といえます。

だからこそ、「どれが良い物語か」をAIに判定させるのはとても難しい領域です。

人間の好みから学ばせる

では、どうやってAIに「良い創作」のセンスを学ばせればよいのか？研究者たちはその答えを、「人間の評価行動」から探りました。

注目されたのが、Redditの「r/WritingPrompts」というコミュニティです。

ここでは、ユーザーが与えられたお題に対して短編小説を投稿し、他のユーザーがupvote（高評価）を付けます。つまり、数十万件に及ぶ投稿と、その評価結果が蓄積されています。

研究者たちは、この評価データを活用し、「高評価を得た投稿」と「そうでない投稿」のペアを作成しました。そして、それらを比較させることで、「人間にウケる物語の特徴」を学ばせるためのデータセットを構築しました。

このデータセットが「LitBench」と名付けられた、世界初の創作文章評価用ベンチマークです。

ただの人気投票では意味がない

とはいえ、単純にupvote数だけで優劣を決めると、誤差やバイアスが入り込みます。

たとえば

長い文章の方が票を集めやすい
早い時間に投稿された方が目立ちやすい
作者が有名であれば票が入りやすい

こうした要素は、物語そのものの「面白さ」とは別の外部要因です。

そこで研究チームは、以下のようなフィルタリングを行いました

upvote数に明確な差（25%以上）を持つペアのみ採用
投稿の長さが極端なものは除外
投稿時間や順序による偏りを排除
内容の重複や学習済みデータの混入を防止

このようにして、「本当に中身の面白さで評価された文章ペアと考えられるもの」を集めたのです。

どんなAIがセンスを持てるのか？

データが整ったら、次にAIモデルの出番です。

今回は、3種類の評価方法が試されました

スコア型AI（BTモデル）：それぞれの文章に数値スコアを出して比較
生成型AI（GenRM）：自分の選んだ理由を説明しながら選択
既成LLM（GPT-4やClaude）にそのまま判断させる（ゼロショット）

結果として、最も精度が高かったのは、スコア型AIモデルでした。これは、人間の評価と78%の一致率を示したとのこと。

次点がClaude（73%）、その次が生成型モデル（72%）です。Claudeもすごいですね。

本当に人の好みに近づいたのか？

研究者たちはさらに、AIが選んだ「良い」とされる作品を、人間に読ませる実験も行いました。

具体的には

GPTに創作させた複数作品から
AIが「これが一番」と判断したものを抜き出し
人間の読者に「どれが良かったか」を聞く

その結果、57%の人間がAIの判断に同意しました。

完全一致ではありませんが、「AIが人間っぽいセンスで文章を評価する力をある程度持ってきた」と言える可能性があるなと感じます。

note・小説・SNSから「自分向け」を発掘

noteとか小説サイトとか、膨大な投稿の中から「面白いもの」だけを見つけてくれるAI

そういった未来が現実味を帯びてきたという感じです。

将来的には、芥川賞と並ぶ、AIが人間の小説の良し悪しを判断する「Gemini賞」的なものも出てくるかもしれません。

将来的にはお笑いの評価もできるかもしれません

今回の研究によって、AIが文章を生成するだけでなく、「この物語は良いかどうか」を判断する時代が示されました。これまで人間にしかできなかった「センス」にAIが挑んだという意味で、興味深い取り組みだと思いました。

将来的には「お笑い」の良し悪しもAIが判断する時代がくるかもしれません。データセットとしては「オンエアーバトルでの評価」とかさまざまあるので、それこそ日本人好みのお笑い判定をしてくれるかもしれません。でもそうなると評価が高いのは「タイムマシーン３号さん」になりますね…。それはそれでいいか。面白いし。