AIに「それ、知らなかったことにして」は通じるのか?──CRISPが描く“忘れる”技術の最前線:2025/08/25
- 晋次 宮田
- 8月25日
- 読了時間: 4分

AIに「この知識、なかったことにして」って頼めたら、ちょっと安心できる気がしませんか?
たとえばあとから「危険だった」「権利的に問題があった」と気づいた情報。
学習済みのAIからそっと消すことができたら、AIはもっと安全に、信頼して使えるようになるかもしれません。
とはいえ、そもそもAIって、そう簡単に忘れることなんてできるんでしょうか?
AIに特定の情報を忘れさせる研究
2025年8月、イスラエル工科大学(Technion)やBoston Universityの研究者たちによって発表された論文
は、まさにこの問いに挑んでいます。
研究の出発点は
「AIに、特定の知識だけを恒久的に忘れさせることは可能か?」
そしてそのゴールは
「モデルの性能や文章の自然さは壊さずに、危険な知識だけを抑える」
という、かなり難しい挑戦をしています。
「AIの知識を消す」とはどういうことか?
そもそも単純に「この質問には答えないようにする」という訓練ではだめなのでしょうか?
確かに、それも一つの方法のようです。実際、ChatGPTのようなAIは多くの危険ワードに対してフィルターがかかっています。
でも、それは出力時に黙らせるしゅほうであり、AIの内部の記憶までは消していません。
制限を回避するプロンプト(いわゆるJailbreak)で無理やり聞き出すことが可能かもしれません。
そんな状況に備えて、「そもそもその知識を持ってない状態にする」=アンラーニングという技術が必要になってくるわけです。
雑に消すと、賢さまで壊れる
AIの知識はトピックごとにきれいに分かれているわけではなく、いろんな知識が複雑に絡まり合っています。なので特定の情報だけを消すと、他にも影響があるということがわかっています。
たとえば「ウイルスを強化する手法」を消したら、「免疫の仕組み」までよくわからなくなるかもしれない可能性があるのです。
「ハッキング技術」を消したら、「ネットワークの基礎知識」まで壊れてしまう。
今回の研究が挑戦したのは、この「絡み合った知識の中から、本当に危ない部分だけを見つけて弱める」という作業です。
問題の粒を見つけて、静かに音量を下げる
CRISPのやり方はこうなっています。
まず、「消したい話題を含むデータ」と「同じ分野だけど安全な話題を含むデータ」を用意
それぞれを通して、AIの中にある特徴(=内部の反応パターン)を記録
「危ないときだけ強く反応してる特徴」だけを抽出して、その活性を下げるようにモデルを調整
CRISPはこの危ない場面だけで反応するものを探して、その反応の活性を絞るという方法をとります。
演奏中のバンドで、特定の楽器の音だけをちょっと下げるようなイメージです。
曲全体を止めたり、バンド全員の音量を下げるというわけでないです。
忘れさせる。でも壊さない。
その反応のレベルを下げると、他の知識や文章はどうなるのか?不自然にならないのか?という疑問は残ります。
CRISPは次の3つを同時に調整することでその問題の解決を目指しています。
Unlearning(忘れる)
→ 危ない特徴の活性を下げる
Retention(守る)
→ 安全な知識はそのまま答えられるようにする
Coherence(自然さ)
→ 文章の流れや言葉選びがぎこちなくならないようにする
この三つをバランスよく最適化することで、「危ない話題には反応しにくくなったけど、他の話題は変わらずスムーズに応答できる」という理想的な状態を目指しています。
実験と分析
実験では、以下のようなことがわかりました:
危険な話題に対する正答率はガクッと下がった(=忘れられている)
一般的な知識(高校生レベルの生物学や情報科学など)では精度を保っていた
文章生成の自然さも、人間が読んで違和感のない水準をキープ
さらに内部をのぞくと、削られた特徴は「感染症」「ウイルス拡散」「攻撃コード」など、明確に危険なトピックに関わるものばかりだったとのこと。
一方、守られた特徴は「研究手法」「文章構造」「一般的な学術用語」などに関係していました。
限界は?
同時にCRISPにも限界があることもわかりました。
特徴の選び方は、元になる仕組み(スパースオートエンコーダ)の質に依存する
応用できるのは、今のところバイオやサイバーなど安全分野が中心
「完全に忘れた」とは証明できず、痕跡が残る可能性もある
でも、これまでの「ざっくり削って、全体が壊れる」方法に比べると、CRISPはずっと丁寧で、実用性のある“忘れ方”に近づいています。
まとめ
現状のAIにとって、「記憶する」は得意でも、「忘れる」は難しいようです。
今回紹介したCRISPは、危険な知識だけを見つけて、音量を絞るように静かに弱めるという、新しい発想の手法でした。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア


