「AIに丁寧語で頼むと良い」は嘘だった？──”本当に良いPrompt”に挑んだメタ研究：2025/06/16

2025年6月16日
読了時間: 5分

YouTubeやブログなどで「効果的なプロンプトの書き方」や「AIに伝わりやすい指示の出し方」といった情報をよく見かけると思います。

そうしたテクニックを試して、「おお、今回はいい返答が出たぞ」と感じる人もいれば、「書き方を変えたけど、正直どこが良くなったのかよくわからない」という人もいるかもしれません。

かくいう私も「丁寧語にした方がアウトプットが良いと言われたから丁寧語にしている」といった「良いと言われているから何となく漠然と利用しているPromptプロパティ」が何個かあります。

そんな中、どんなプロンプトが本当に効果的なのかを、150本以上の論文とブログから分析した研究が2025年6月に発表されました。

What Makes a Good Natural Language Prompt? （優れた自然言語プロンプトの条件とは?）

この研究結果によると、先ほど私が無条件で使っていた丁寧語が、モデルによってはかえって結果を悪くしてしまうということも書かれています。（悲しい。。。）

ChatGPTなどの大規模言語モデル（LLM）を使いこなすうえで、非常に実践的な示唆を含んだメタ研究です。

「良いプロンプト」って何？を、21個の視点で整理した研究

この研究では、「良いプロンプト」に共通する性質（プロパティ）を洗い出し、全部で21個のプロパティとして分類しています。

たとえば以下のようなものがあります。

丁寧さ（Politeness）：「Please」「Thank you」などの礼儀ある語調
簡潔さ（Token Quantity）：冗長にならず、必要な情報だけを伝える
目的の明示（Objectives）：「誰が、何を、どの形式で出力すべきか」がはっきりしている
例示（Demonstrations）：「こういう出力例」というサンプルを提示する
自己確認の誘導（Metacognition）：「答えを確認して」「ステップごとに考えて」などの自己チェック指示

これらはさらに「言語的表現」「認知負荷の設計」「命令構造」「構造的論理性」「事実性」「倫理性」という6つの観点に分かれています。

強化すればするほど良くなる？

プロンプトに良さそうな特徴があるなら、どんどん入れればいいのでは？と思うかもしれません。

しかし、実験の結果はそう単純ではありませんでした。

研究チームは、実際にプロンプトを書き換えたバリエーションを作り、複数のAI（LLaMA、Qwen、GPT-4系など）にタスクを解かせてみました。

その結果

プロパティを1つだけ強化した方が、複数組み合わせたときより効果的だった
モデルによって、効果のあるプロパティが全く異なった
たとえば、「丁寧な言い方」はLLaMAでは効果的だったが、OpenAI系ではむしろ性能が落ちた

という興味深い結果が出ました。

高品質プロンプトには「セットで現れる特徴」がある

次に、実際に使われている“高品質なプロンプト”969件を対象に、21プロパティをスコア化し、どの特徴が一緒に出やすいかを調べました。

その結果、以下のような「セットで現れやすい組み合わせ」が見つかりました：

簡潔さ × 明瞭さ × 構造の一貫性 × 文脈の整合性
→ 情報が多すぎず、論理的に流れている
目的の明示 × 認知負荷のコントロール（分解） × 自己チェックの誘導
→ ゴールが明確で、モデルが自分で思考・確認するように導かれている
事実に基づく指示 × 信頼性への配慮
→「ちゃんと根拠を示して」といった、正確な出力への要求が含まれている

これらは、GPT-4oを使って各プロンプトを評価し、プロパティ間の相関関係を統計的に測った結果です。

「プロンプト設計」に共通ルールはあるのか？

研究では明言されていますが、「すべてのモデルで共通に効果があるプロパティ」は実はあまり多く無いとのこと。

モデルによって、学習データやチューニング方法が違うため、あるモデルでは「Politeness」が有効でも、別のモデルでは逆効果になることもあります。

とはいえ、比較的どのモデルにも有効だったのは以下のプロパティとのことです。

タスク分解（Intrinsic Load）
例示の提供（Demonstrations）
外部ツールの活用指示（External Tools）

結局、プロンプトはどう書けばいいのか？

この研究では、実務において、以下のことを意識してPromptを書くことを提言しています。

プロパティを1つだけ意識して強調する方が効果的
モデルごとに「合うプロパティ」を見極める必要がある
構造的に整理されたプロンプトは他の良い特徴も内包しやすい

つまり、最初に取り組むべきは「とりあえず丁寧に書いてみる」でも「複雑に盛る」でもなく、

どのプロパティを意図的に使うかを決めて、それだけに集中して試してみること、となります。

AIに頼むときは、プロパティを意識した構造化が重要

AIは、文章の裏にある「意図」「構造」「判断基準」を読み取る力を持っています。でもその力を活かすには、私たちの側も設計された頼み方を用意する必要があります。

この研究では、「プロンプトに設計の視点を持ち込むべき」ということが強く示唆されています。

プロパティを意識して
構造化された言語で指示する

ことで、AIの本来の力を引き出すことができ、その結果良いアウトプットが得られるということですね。かなりプログラミングに似ています。

業務で日常的にLLMを利用する人だけでなく、LLMを活用したサービスベンダーの中で、System Promptをチューニングする人にも非常に重要なポイントだと言えると思います。

タスク × モデル × プロパティマトリクス

最後に、どの様なタスクで、どのモデルで、どのプロパティでアウトプットに効果が出たのかの表を文献から抜き出して表にしておきます。

※✅：効果あり　❌：逆効果・性能低下　△：中立または一貫しない　⭕：注目された事例あり

タスク種別（タスクの意味）	モデル	丁寧さ	ステップ分解の指示	メタ認知	例示	知識の活用を促す誘導	目的の明示
MMLU（学術的多肢選択問題への汎用知識理解）	LLaMA-3.1	⭕	✅	❌	✅	△	✅
	Qwen-2.5	❌	❌	✅	△	△	✅
	OpenAI o3-mini	❌	❌	❌	✅	△	✅
CommonsenseQA（常識的な文脈推論問題）	LLaMA-3.1	✅	❌	✅	✅	❌	✅
	Qwen-2.5	❌	✅	✅	✅	✅	△
	OpenAI o3-mini	❌	❌	❌	✅	❌	✅
GSM8K（数学のステップバイステップ問題解答）	LLaMA-3.1	✅	✅	❌	✅	❌	✅
	Qwen-2.5	✅	✅	✅	✅	✅	✅
	OpenAI o3-mini	❌	❌	❌	❌	❌	✅
Chat (ShareGPT)（日常的・雑多な対話的チャット）	LLaMA-3.1	✅	✅	✅	✅	✅	✅
	Qwen-2.5	❌	✅	✅	✅	✅	✅
	OpenAI o3-mini	❌	❌	❌	❌	❌	✅