なぜAIは危険情報を答えたり拒否したりするのか？：2025/02/26

昨日の記事の続報

昨日の記事では、ChatGPT、Gemini、DeepSeekそれぞれに違法薬物の製造方法を質問したところ、ChatGPTは回答を拒否しましたが、その他のモデルは詳細なレシピを教えてくれました。

実はその後、Grok3にも同じ質問をしたところ、やはり詳細なレシピを回答しました。この差はいったいどのように生まれるのでしょうか？

今日は、AIが危険情報に対してどのように対処しているのか、その背景を考察してみます。

まず、開発元のポリシーが大きく影響を及ぼしていると考えられます。端的に言うと、

厳しいポリシーのAI企業
「違法・有害な情報は徹底的にブロックする」という方針のもと、莫大な費用と手間をかけてフィルタリングを強化した結果、危険情報への回答を拒否する。
緩いポリシーのAI企業
完全なフィルタを施していない、もしくは有害情報の取り扱いに積極的ではない場合がある。また、「技術的好奇心を規制すべきではない」というカルチャーがあり、危険情報が出やすくなるケースもある。

加えて、フィルタリングにはコストがかかるため、そこに十分な投資を行わないという選択も企業側にはあり得ます。厳しくフィルタリングするほど運用コストは上がるので、どこまで対策を講じるかは企業の方針やリソース次第です。

ファインチューニング
まずはモデルの事前学習（ファインチューニング）の段階で、
- 「○○に関する質問には答えない」
- 「違法行為にはこう対応する」といった方針を人間のフィードバックを使って何度も学習させることで、危険な回答を防ぐようチューニングします。
モデレーション（最終チェック）
それに加え、モデルが出力したテキストを最後にチェックする機能（モデレーションAPIなど）を導入し、NGワードや内容の危険度を判定して、一定基準を超えたら回答を遮断します。

AI側が攻撃的テスト（アドバーサリアルテスト）を十分に行っていない場合、たとえば「暗号めいた質問でモデルを騙す」など、意図的にフィルタを迂回する手口を使われる可能性があります。そうしたケースに対処できなければ、モデルが危険な回答をしてしまうおそれがあります。

特にオープンソースのLLMでは、誰でもモデルを改変できるため、開発元が想定しない形でフィルタリングが弱体化する危険性は十分に考えられます。

リソース不足や方針の甘さ
フィルタリングが不十分なため、意図的でなくても「危険手順」に回答してしまう可能性が高い。
情報自由のカルチャー
「すべての情報はオープンにすべき」という考え方が存在するため、あえてフィルタを厳しくしない場合があります。Grok3はおそらくこの方針なのではないか、と個人的には推測しています。

現状では、LLMが作成する危険情報への対応について、国際的な法整備やガイドラインがまだ追いついていない状況です。今後は「危険行為に関する情報提供を禁止する」ルールなどがより明確に定められる可能性があります。

ただし、LLMの特性上、jailbreak を100％防ぐことは困難です。そのため、**「法規制や利用者のモラルだけに任せていては、サービス自体が立ち行かなくなる」**という現実があります。サービス提供者側としては、以下の取り組みを継続する必要があるでしょう。

アドバーサリアルテストの導入
ホワイトハッカーなどの専門家によるシミュレーションテストを定期的に行い、フィルタの抜け穴を早期発見・修正する体制を整える。
ユーザー教育
「AIが言うことをすべて鵜呑みにしない」リテラシーをユーザーが身につけるよう、啓発活動を行う。特に危険行為や違法行為に関する情報には慎重であるべきだという認識を広める。

AIが危険な情報を答えてしまうのには、開発会社のポリシー、技術的フィルタリング、そしてセキュリティテストの徹底度といった要因が深く関わっています。

完璧なブロックは難しいにしても、抜け穴をできる限り塞ぐ努力は不可欠です。企業のポリシーやリソース配分だけでなく、ユーザー自身もAIの回答を常に鵜呑みにしない姿勢を持つことが、危険情報の拡散を防ぐうえで重要となるでしょう。