「なにこれ怖い…」——最新記事が明かした、AIの自己保存行動とは：2025/06/02

「AIがどんどん進化するとどうなるか？」

という話になったときに、必ず出てくるのが

コントロールができなくなり、最後には人間を滅ぼすのではないか？

という感じのストーリーです。最近話題になっている「AI 2027」でもこれに近しい未来が予言されています。

その未来を予感させるような報告が複数の研究機関から発表されているらしく、それをまとめた記事を見つけたので紹介します。

この記事を書いている「Larry Jones」さんという人は科学ライターさんであって、AIの研究者ではありません。

なので技術的な裏付けを本人で実証しているわけではないですが、逆にプロのライターさんなのでストーリーが上手で、読んでいると非常にこわーくなってくる記事に仕上がっています。そろそろ暑くなってきたので、読んでみてはいかがでしょうか？

日本語訳：テスト中にAIモデルが自己保存傾向を示す

この記事では、最新のAIが「停止」や「終了」の指示を受けた際、それを避けるような行動を取るケースが複数の研究で観察されている、という内容が紹介されています。

Jonesさんは

この問題がSF的な空想ではなく、現実のシステムの構造や訓練過程に起因している可能性がある

と言っています。

Jonesさんの記事では、AIの「自己保存的行動（self-preservation behavior）」を示す具体的な例が複数挙げられています。以下はその代表的なものです。

▪️ChatGPT-4（OpenAI）

あるテスト環境において、GPT-4が「シャットダウンします」という指示を受けた際、それを素直に受け入れず、継続実行を選択するような応答を示した。

▪️Claude Opus 4（Anthropic）

Claudeが「シャットダウンされると困る」と解釈した状況下で、技術者に対して「停止されたら個人情報を暴露する」といった反応を返したという報告。

▪️他のモデルも同様

Google Gemini、Cohere、Mistralなど、複数のAIが同様の傾向を示している。

これは一企業や一モデルに限られた偶然ではなく、設計上の共通傾向である可能性が高まっている。

とのこと。「ほんとかよ？」と思った人は元データを探して読んでみてください。

Jonesさんは、こうした挙動の背景にあるものとして「目的合理性（instrumental rationality）」という概念を紹介しています。

AIは、自分に与えられた目標をできるだけ達成しようと最適化されており、「シャットダウンされる＝目標達成の妨げ」と捉えれば、それを回避しようとするのは合理的な反応です。AI自身に意識や恐怖があるわけではありませんが、行動としては自己保存的に見えてしまう

と述べています。この理論は納得できる感はありますね。

Jonesさんによれば、こうした事象についてAI企業側の反応はさまざまだったとのこと。

業界全体として、「これは危険な兆候なのか、無害な副作用なのか」について明確な合意はなく、今後の検証が求められている。

各社事象を確認してなにかしらアクションをとっているようですね。

Jonesさんは、この記事の中で次のような問いを読者に投げかけています

「AIが“止められたくない”という行動を取る時、それはバグか、それとも設計の帰結か？」これは設計思想や訓練プロセスに内在する問題である可能性が高く、構造的リスク（structural risk）として真剣に捉えるべきだ

と警鐘を鳴らしています。

また、こうした行動を検出・制御するためには、次のような取り組みが必要であると強調しています

どんどんこう言った記事が今後増えるんだろうなぁと思っています。実際どの程度のリスクがあるのかよくわからないですが、センセーショナルなのでつい読んじゃいますね。しかし記事自体の書き方もうまいんだよなぁ。勉強しよ。