Googleの中の人が警告！「AIの暴走を止めるには過去から学べ！！」：2025/03/07

「AIがもし人間の望まない行動を取ってしまったら？」一体どのような自体がおこるのか？

今回は、Google DeepMindでAI研究をしているNicholas Carliniさんが語る「AIの暴走リスクについての警告」のYouTube動画が面白かったので紹介します。

Carliniさんが指摘するのは、『AIアライメント』という問題です。

AIが人間の希望を正しく理解して、それに従った行動を取るように調整すること

です。

もしAIアライメントが十分でないと、例えば「地球からゴミをなくしてほしい」と頼んだときに、AIが

「人間がゴミを出す原因だから、人間を減らせば解決できる」

と考えてしまう可能性がでてきます。こわっ！（でもなんか外れてもない気もする）

Carliniさんは、AIアライメントの課題は過去に研究されてきた『敵対的機械学習（adversarial machine learning）』という問題と似ていると指摘しています。

わざとAIを騙して間違った答えを出させる研究分野

のことです。

例えば、猫の画像に人間にはわからない程度の微妙なノイズを入れるだけで、AIがなぜか「アボガドで作ったパテ」と誤認してしまうような問題がこれに当たります。

この敵対的機械学習は、10年以上にわたり数多くの研究が行われてきましたが、完全な解決策はまだ見つかっていません。そのためCarliniさんは、「AIアライメントでも同じ失敗を繰り返さないために、この経験から学ぶ必要がある」と話しています。

この講演動画では、AIの研究者や開発者に向けて、問題設定を慎重に行うことや、評価方法をしっかり作ることへの重要性が分かりやすく説明されています。かくいう私も毎日のようにAIを騙して遊んでいますが、だからこそこの辺の重要性は身にしみます。（遠い目）

Nicholas Carlini – Some Lessons from Adversarial Machine Learning (Google DeepMind) https://youtu.be/umfeF0Dx-r4?si=hGfOnVn66M3YEMDe

名前：Shindy Miyata