top of page
IMG_0546.JPG

AIに「それ、知らなかったことにして」は通じるのか?──CRISPが描く“忘れる”技術の最前線:2025/08/25

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 8月25日
  • 読了時間: 4分
ree

AIに「この知識、なかったことにして」って頼めたら、ちょっと安心できる気がしませんか?

たとえばあとから「危険だった」「権利的に問題があった」と気づいた情報。

学習済みのAIからそっと消すことができたら、AIはもっと安全に、信頼して使えるようになるかもしれません。

とはいえ、そもそもAIって、そう簡単に忘れることなんてできるんでしょうか?



AIに特定の情報を忘れさせる研究


2025年8月、イスラエル工科大学(Technion)やBoston Universityの研究者たちによって発表された論文



は、まさにこの問いに挑んでいます。

研究の出発点は

「AIに、特定の知識だけを恒久的に忘れさせることは可能か?」

そしてそのゴールは

「モデルの性能や文章の自然さは壊さずに、危険な知識だけを抑える」

という、かなり難しい挑戦をしています。



「AIの知識を消す」とはどういうことか?


そもそも単純に「この質問には答えないようにする」という訓練ではだめなのでしょうか?

確かに、それも一つの方法のようです。実際、ChatGPTのようなAIは多くの危険ワードに対してフィルターがかかっています。

でも、それは出力時に黙らせるしゅほうであり、AIの内部の記憶までは消していません。

制限を回避するプロンプト(いわゆるJailbreak)で無理やり聞き出すことが可能かもしれません。

そんな状況に備えて、「そもそもその知識を持ってない状態にする」=アンラーニングという技術が必要になってくるわけです。



雑に消すと、賢さまで壊れる


AIの知識はトピックごとにきれいに分かれているわけではなく、いろんな知識が複雑に絡まり合っています。なので特定の情報だけを消すと、他にも影響があるということがわかっています。

たとえば「ウイルスを強化する手法」を消したら、「免疫の仕組み」までよくわからなくなるかもしれない可能性があるのです。

「ハッキング技術」を消したら、「ネットワークの基礎知識」まで壊れてしまう。

今回の研究が挑戦したのは、この「絡み合った知識の中から、本当に危ない部分だけを見つけて弱める」という作業です。



問題の粒を見つけて、静かに音量を下げる


CRISPのやり方はこうなっています。

  1. まず、「消したい話題を含むデータ」と「同じ分野だけど安全な話題を含むデータ」を用意

  2. それぞれを通して、AIの中にある特徴(=内部の反応パターン)を記録

  3. 「危ないときだけ強く反応してる特徴」だけを抽出して、その活性を下げるようにモデルを調整

CRISPはこの危ない場面だけで反応するものを探して、その反応の活性を絞るという方法をとります。

演奏中のバンドで、特定の楽器の音だけをちょっと下げるようなイメージです。

曲全体を止めたり、バンド全員の音量を下げるというわけでないです。



忘れさせる。でも壊さない。


その反応のレベルを下げると、他の知識や文章はどうなるのか?不自然にならないのか?という疑問は残ります。

CRISPは次の3つを同時に調整することでその問題の解決を目指しています。

  1. Unlearning(忘れる)

    → 危ない特徴の活性を下げる

  2. Retention(守る)

    → 安全な知識はそのまま答えられるようにする

  3. Coherence(自然さ)

    → 文章の流れや言葉選びがぎこちなくならないようにする

この三つをバランスよく最適化することで、「危ない話題には反応しにくくなったけど、他の話題は変わらずスムーズに応答できる」という理想的な状態を目指しています。



実験と分析


実験では、以下のようなことがわかりました:

  • 危険な話題に対する正答率はガクッと下がった(=忘れられている)

  • 一般的な知識(高校生レベルの生物学や情報科学など)では精度を保っていた

  • 文章生成の自然さも、人間が読んで違和感のない水準をキープ

さらに内部をのぞくと、削られた特徴は「感染症」「ウイルス拡散」「攻撃コード」など、明確に危険なトピックに関わるものばかりだったとのこと。

一方、守られた特徴は「研究手法」「文章構造」「一般的な学術用語」などに関係していました。



限界は?


同時にCRISPにも限界があることもわかりました。

  • 特徴の選び方は、元になる仕組み(スパースオートエンコーダ)の質に依存する

  • 応用できるのは、今のところバイオやサイバーなど安全分野が中心

  • 「完全に忘れた」とは証明できず、痕跡が残る可能性もある

でも、これまでの「ざっくり削って、全体が壊れる」方法に比べると、CRISPはずっと丁寧で、実用性のある“忘れ方”に近づいています。



まとめ


現状のAIにとって、「記憶する」は得意でも、「忘れる」は難しいようです。

今回紹介したCRISPは、危険な知識だけを見つけて、音量を絞るように静かに弱めるという、新しい発想の手法でした。


書き手

名前:Shindy Miyata

所属:SHARE Security

セキュリティエンジニア


 
 

最新記事

すべて表示
bottom of page