AIが「物語の良し悪し」——をわかる日がくるかも?創作のセンスを判定する新しい試み:2025/07/08
- 晋次 宮田
- 2025年7月8日
- 読了時間: 4分

物語を読んだ後に「なんか良かった」「なんかピンとこなかった」と感じたことは、誰にでもあることだと思います。
でも、その「なんか」を具体的な言葉で説明するのって意外と難しいですよね。
しかも、それがAIの書いた文章だったら、どうでしょう?
「意外と読めるけど心に残らない」「整ってるけど面白くない」——私はそんな感想を持つことがあります。
では、AI自身に「この物語、面白いと思う?」と聞いたとき、果たして正しく判断できるのでしょうか?
今回ご紹介する研究は、この問いに取り組んだもになります。
LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing (LitBench: 創作文の信頼性の高い評価のためのベンチマークとデータセット)創作には正解がない
現状のAIが得意とするのは、明確な答えが存在するタスクと言われています。これはイメージがつきます。たとえば数学の問題、翻訳、コードのバグ修正などには「これが正しい」という正解があるので、学習させやすいため、AIも得意とする領域となっています。
ところが、創作の世界には「正解」がありません。同じお題でも、ホラーにもできればコメディにもできる。短くても刺さる話もあれば、長編でじっくり語るタイプもあります。
つまり「複数の正解が共存する世界」といえます。
だからこそ、「どれが良い物語か」をAIに判定させるのはとても難しい領域です。
人間の好みから学ばせる
では、どうやってAIに「良い創作」のセンスを学ばせればよいのか?研究者たちはその答えを、「人間の評価行動」から探りました。
注目されたのが、Redditの「r/WritingPrompts」というコミュニティです。
ここでは、ユーザーが与えられたお題に対して短編小説を投稿し、他のユーザーがupvote(高評価)を付けます。つまり、数十万件に及ぶ投稿と、その評価結果が蓄積されています。
研究者たちは、この評価データを活用し、「高評価を得た投稿」と「そうでない投稿」のペアを作成しました。そして、それらを比較させることで、「人間にウケる物語の特徴」を学ばせるためのデータセットを構築しました。
このデータセットが「LitBench」と名付けられた、世界初の創作文章評価用ベンチマークです。
ただの人気投票では意味がない
とはいえ、単純にupvote数だけで優劣を決めると、誤差やバイアスが入り込みます。
たとえば
長い文章の方が票を集めやすい
早い時間に投稿された方が目立ちやすい
作者が有名であれば票が入りやすい
こうした要素は、物語そのものの「面白さ」とは別の外部要因です。
そこで研究チームは、以下のようなフィルタリングを行いました
upvote数に明確な差(25%以上)を持つペアのみ採用
投稿の長さが極端なものは除外
投稿時間や順序による偏りを排除
内容の重複や学習済みデータの混入を防止
このようにして、「本当に中身の面白さで評価された文章ペアと考えられるもの」を集めたのです。
どんなAIがセンスを持てるのか?
データが整ったら、次にAIモデルの出番です。
今回は、3種類の評価方法が試されました
スコア型AI(BTモデル):それぞれの文章に数値スコアを出して比較
生成型AI(GenRM):自分の選んだ理由を説明しながら選択
既成LLM(GPT-4やClaude)にそのまま判断させる(ゼロショット)
結果として、最も精度が高かったのは、スコア型AIモデルでした。これは、人間の評価と78%の一致率を示したとのこと。
次点がClaude(73%)、その次が生成型モデル(72%)です。Claudeもすごいですね。
本当に人の好みに近づいたのか?
研究者たちはさらに、AIが選んだ「良い」とされる作品を、人間に読ませる実験も行いました。
具体的には
GPTに創作させた複数作品から
AIが「これが一番」と判断したものを抜き出し
人間の読者に「どれが良かったか」を聞く
その結果、57%の人間がAIの判断に同意しました。
完全一致ではありませんが、「AIが人間っぽいセンスで文章を評価する力をある程度持ってきた」と言える可能性があるなと感じます。
note・小説・SNSから「自分向け」を発掘
noteとか小説サイトとか、膨大な投稿の中から「面白いもの」だけを見つけてくれるAI
そういった未来が現実味を帯びてきたという感じです。
将来的には、芥川賞と並ぶ、AIが人間の小説の良し悪しを判断する「Gemini賞」的なものも出てくるかもしれません。
将来的にはお笑いの評価もできるかもしれません
今回の研究によって、AIが文章を生成するだけでなく、「この物語は良いかどうか」を判断する時代が示されました。これまで人間にしかできなかった「センス」にAIが挑んだという意味で、興味深い取り組みだと思いました。
将来的には「お笑い」の良し悪しもAIが判断する時代がくるかもしれません。データセットとしては「オンエアーバトルでの評価」とかさまざまあるので、それこそ日本人好みのお笑い判定をしてくれるかもしれません。でもそうなると評価が高いのは「タイムマシーン3号さん」になりますね…。それはそれでいいか。面白いし。



