AIと人間の区別がつかなくなった日──GPT-4.5が通過したチューリングテストとは何か：2025/05/29

2025年3月、カリフォルニア大学サンディエゴ校の研究者が公開した以下の論文が、大きな話題を呼びました。

Large Language Models Pass the Turing Test 日本語訳：大規模言語モデルがチューリングテストを通過

この研究は、AIが本物の人間と区別がつくかどうかを試す「チューリングテスト」を、最新のLLMを含むAIで実施したものです。そしてその結果、GPT-4.5というAIが「人間より人間らしい」と評価されました。

1950年、数学者アラン・チューリングは「機械に知能はあるか？」という問題に対して、一つの方法を提案しました。テキストチャットで人間と機械が会話し、審査員がどちらが人間かを当てられなければ、機械は知能を持つとみなす。この方法が、チューリングテストです。

今回の研究は、このオリジナル形式に忠実に、三者間構成で行われました。1人の尋問者が、1人の人間と1体のAIの両方と同時に5分間テキストチャットを行い、どちらが人間かを当てるという形式です。

実験には、以下の4つのAIモデルが使われました。

さらに、各AIには2種類のプロンプトが与えられました。

研究では、UCサンディエゴの学生（126人）と、オンライン調査サイトProlificの一般成人（158人）が参加し、計1,023回の対話が実施されました。

その結果、以下のように「AIが人間と誤認された率」が示されました

特にGPT-4.5（人格設定あり）は、どちらの参加者グループにおいても本物の人間より人間らしいと判定されるという結果となりました。

1. キャラクター設定による自然な模倣

GPT-4.5には、内向的でネット文化に詳しく、スラングを使う若者という詳細な人格が与えられていました。これにより、実際の若年層のような受け答えができ、尋問者に同世代っぽさを感じさせることができました。

2. 不完全さの演出

多くの尋問者は、タイポ、曖昧な回答、ちょっとした誤りなどを人間らしさの証拠として評価していました。GPT-4.5は、こうした要素も含めて巧みに演出していたのです。

3. 判定基準が感覚に依存していた

尋問者の多くは、「雰囲気が人間っぽい」「自然な話し方だった」「感情があるように思えた」といった印象で判定していました。論理や知識ではなく、印象による判断が大半だったのです。

研究チームは、「AIが人間らしく見せかける能力（欺瞞力）を持った」という点について言及しています。

GPT-4.5は、人間のように思わせる能力に長けていましたが、それは知能や理解力とは別の次元の能力です。これは、単なる模倣ではなく、社会的に意味のある代替可能性を持つことを意味している可能性があります。（いまちょっとサイバーチックな音楽を聴きながらこの文章を書いているのでちょと怖いです。）

この研究結果は、今後AIが「偽の人間」として、さまざまな場面で自然に溶け込んでいく可能性を指し示しています。便利になる面もあれば、もしかしたら怖い側面もあるかもしれません。

うーん。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア