top of page
IMG_0546.JPG

AIが「物語の良し悪し」——をわかる日がくるかも?創作のセンスを判定する新しい試み:2025/07/08

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年7月8日
  • 読了時間: 4分

物語を読んだ後に「なんか良かった」「なんかピンとこなかった」と感じたことは、誰にでもあることだと思います。

でも、その「なんか」を具体的な言葉で説明するのって意外と難しいですよね。

しかも、それがAIの書いた文章だったら、どうでしょう?

「意外と読めるけど心に残らない」「整ってるけど面白くない」——私はそんな感想を持つことがあります。

では、AI自身に「この物語、面白いと思う?」と聞いたとき、果たして正しく判断できるのでしょうか?

今回ご紹介する研究は、この問いに取り組んだもになります。

LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing (LitBench: 創作文の信頼性の高い評価のためのベンチマークとデータセット)


創作には正解がない


現状のAIが得意とするのは、明確な答えが存在するタスクと言われています。これはイメージがつきます。たとえば数学の問題、翻訳、コードのバグ修正などには「これが正しい」という正解があるので、学習させやすいため、AIも得意とする領域となっています。

ところが、創作の世界には「正解」がありません。同じお題でも、ホラーにもできればコメディにもできる。短くても刺さる話もあれば、長編でじっくり語るタイプもあります。

つまり「複数の正解が共存する世界」といえます。

だからこそ、「どれが良い物語か」をAIに判定させるのはとても難しい領域です。



人間の好みから学ばせる


では、どうやってAIに「良い創作」のセンスを学ばせればよいのか?研究者たちはその答えを、「人間の評価行動」から探りました。

注目されたのが、Redditの「r/WritingPrompts」というコミュニティです。

ここでは、ユーザーが与えられたお題に対して短編小説を投稿し、他のユーザーがupvote(高評価)を付けます。つまり、数十万件に及ぶ投稿と、その評価結果が蓄積されています。

研究者たちは、この評価データを活用し、「高評価を得た投稿」と「そうでない投稿」のペアを作成しました。そして、それらを比較させることで、「人間にウケる物語の特徴」を学ばせるためのデータセットを構築しました。

このデータセットが「LitBench」と名付けられた、世界初の創作文章評価用ベンチマークです。



ただの人気投票では意味がない


とはいえ、単純にupvote数だけで優劣を決めると、誤差やバイアスが入り込みます。


たとえば

  • 長い文章の方が票を集めやすい

  • 早い時間に投稿された方が目立ちやすい

  • 作者が有名であれば票が入りやすい

こうした要素は、物語そのものの「面白さ」とは別の外部要因です。


そこで研究チームは、以下のようなフィルタリングを行いました

  • upvote数に明確な差(25%以上)を持つペアのみ採用

  • 投稿の長さが極端なものは除外

  • 投稿時間や順序による偏りを排除

  • 内容の重複や学習済みデータの混入を防止

このようにして、「本当に中身の面白さで評価された文章ペアと考えられるもの」を集めたのです。



どんなAIがセンスを持てるのか?


データが整ったら、次にAIモデルの出番です。

今回は、3種類の評価方法が試されました


  1. スコア型AI(BTモデル):それぞれの文章に数値スコアを出して比較

  2. 生成型AI(GenRM):自分の選んだ理由を説明しながら選択

  3. 既成LLM(GPT-4やClaude)にそのまま判断させる(ゼロショット)


結果として、最も精度が高かったのは、スコア型AIモデルでした。これは、人間の評価と78%の一致率を示したとのこと。

次点がClaude(73%)、その次が生成型モデル(72%)です。Claudeもすごいですね。



本当に人の好みに近づいたのか?


研究者たちはさらに、AIが選んだ「良い」とされる作品を、人間に読ませる実験も行いました。

具体的には


  • GPTに創作させた複数作品から

  • AIが「これが一番」と判断したものを抜き出し

  • 人間の読者に「どれが良かったか」を聞く


その結果、57%の人間がAIの判断に同意しました。

完全一致ではありませんが、「AIが人間っぽいセンスで文章を評価する力をある程度持ってきた」と言える可能性があるなと感じます。



note・小説・SNSから「自分向け」を発掘


noteとか小説サイトとか、膨大な投稿の中から「面白いもの」だけを見つけてくれるAI

そういった未来が現実味を帯びてきたという感じです。

将来的には、芥川賞と並ぶ、AIが人間の小説の良し悪しを判断する「Gemini賞」的なものも出てくるかもしれません。



将来的にはお笑いの評価もできるかもしれません


今回の研究によって、AIが文章を生成するだけでなく、「この物語は良いかどうか」を判断する時代が示されました。これまで人間にしかできなかった「センス」にAIが挑んだという意味で、興味深い取り組みだと思いました。

将来的には「お笑い」の良し悪しもAIが判断する時代がくるかもしれません。データセットとしては「オンエアーバトルでの評価」とかさまざまあるので、それこそ日本人好みのお笑い判定をしてくれるかもしれません。でもそうなると評価が高いのは「タイムマシーン3号さん」になりますね…。それはそれでいいか。面白いし。


 
 
bottom of page