なぜDeepSeekは「答えたあとに消す」のか？──出力検閲の裏にある戦略：2025/07/09

DeepSeekに質問をしたら、一瞬後にそれが「申し訳ありません、その質問にはお答えできません」に変わってしまう──そんな経験はないでしょうか？

以下はその事例動画です。

マルウェアを作成したのち、すぐに検閲が入るのが判ります。

ユーザーとしては、「一度答えたのに消した」ように見えて、ちょっと不気味にも感じます。

この「あとから回答を消す」仕組みの裏には、AIの安全制御や検閲のリアルな工夫が詰まっています。この記事では、DeepSeekがなぜそんな不自然な挙動を取るのか、そして将来のAI設計がどこに向かうのかを掘り下げてみます。

ChatGPTやClaudeのような欧米LLMは、危険な質問には最初から「その質問には答えられません」と拒否するスタイルです。でも、DeepSeekは前述の通り、ちょっと違う挙動をすることがあります。

なぜそんなことをするのでしょうか？

DeepSeekでは、ユーザーに見せた回答を検閲し、後で上書きするという構造になっています。

つまり、生成した時点では問題と判定されなかった内容を、別人格ののAIが「表示OKか？」と再確認している、そういう仕組みになっている様に推測できます。

「それなら最初からサーバーの中で検閲すればいいじゃん」と思います。ユーザーに表示する直前で検閲すれば、変な回答は出てこないし、「消された！」という違和感も残らないので。

そうしていない主な理由は以下と推測します。

ストリーミング形式では途中の書き換えが難しい
トークンを少しずつ返すstream型の応答では、後から一気に上書きするのが構造的に難しい。
表示層で制御したほうが柔軟に対応できる
モデル本体を頻繁に改修するのは大変だけど、表示を切り替えるUI側ならポリシー更新も簡単。
一瞬見せて消すこと自体が、ユーザーへの抑止効果を持つ
「この質問は検閲されている」と、無言で学習させる戦術。
※これは完全に私の推測ですが、常に「党局がみているぞ」とユーザに明確に知らせるのは効果がありそうだなと。

DeepSeekはあえて「あとから消す」ことで、検閲、技術、安全性、全部をうまくさばいているようにみえます。

サーバー性能がもっと高くなって、LLMが一瞬で全回答を出して、表示前に再評価するような未来はどうでしょうか？

これはもう動き始めているようです。

これらはいずれも、「一度出したあとに消す」よりも、「出す前に、すでに検閲済みのものだけを提示する」方向に進化しています。

医療、法務、金融のようなミスが致命的になる分野では、この「事前の再評価付き出力」が今後の常識になる可能性があります。

診察補助AIのような医療用途では、こういった内部検閲が重要かもしれません。

もしAIが間違った治療提案をして、それがそのまま医師の判断に影響してしまったらそれは大変なことになりかねません。

GoogleのMed-PaLM 2では

という二段階構造が研究段階ながら実装されているそうです。

これは、AIの言うことを「ただの参考」にする段階から、「再評価済みの、一定信頼性を担保した出力を提供する」設計へと進んでいることを意味します。

DeepSeekのような、「一度見せたあとに消す」タイプの検閲は、いまの技術や政治環境の中でできる現実的な解です。

でも将来的には、「そもそも見せる前に再評価を終えているAI」が、特に責任の重い分野では主流になっていく可能性はあります。