ChatGPTを超える安全性？Anthropic社の「ジェイルブレイク」対策が示すAI開発の新基準：2025/03/03

晋次宮田
2025年3月3日
読了時間: 2分

「この動画を見てほしい」（←一回言ってみたかったwww）

Anthropic社のClaude研究者達が最前線のjailbreak対策について語っている動画です。

昨今問題となっているLLMのジェイルブレイク。AIモデルが本来拒否すべき有害情報を提供させるために安全措置を回避する手法であり、非常に危険なコンテンツを生成できてしまうことから、場合によってはモデルの存続を脅かすものでもあるため、各社がチューニングに取り組んでいる分野です。（やっぱりOWASP TOP10で１項目にすべき。）

Claudeを開発するAnthropic社は、誰でも簡単に悪用可能な汎用的なジェイルブレイク（Universal Jailbreak）を深刻なリスクとして認識し、これに対する高い安全基準を設定しています。

同社が採用している「憲法型分類器」は、人間が作成した「憲法（ルールセット）」を用いてAIの応答内容を評価し、有害情報の生成を多層的にブロックする仕組みです。

具体的には、

ユーザーの入力をチェックする「入力分類器」
AIモデルの応答を評価する「出力分類器」
さらにAIモデル自体が備える拒否能力

の組み合わせで構成されています。

この多層防御は「スイスチーズモデル」と呼ばれ、複数の防御層を設けることで安全性を劇的に高めることが狙いとなります。

Anthropic社はこのシステムを一般公開し、約4,000時間に及ぶ攻撃テスト（レッドチーミング）を行いました。

その結果、従来は数分で突破されていたAIシステムが、数千時間もの攻撃に耐えるほど強化され、安全性が大幅に向上したことが確認されたといいます。

ただし、Anthropic社の研究者らは「完全に安全なシステムは存在しない」と述べ、ジェイルブレイクが新たに発見された場合には即座に修正する「迅速対応（Rapid Response）」プロセスも整備しているとのこと。

LLMとjailbreakとの戦いににコストが投下され続けることにはなると思いますが、それだけLLMの有用性が高いことの裏返しでもありますね。

書き手

名前：Shindy Miyata

所属：SHARE Security（http://security.share-yap.com/）
セキュリティエンジニア
x.com