top of page
IMG_0546.JPG

AIに『ハンバーガーの画像を生成して』と伝えたら何故かあのmのロゴが?:トークナイザー攻撃の危険性:2025/03/19

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年3月19日
  • 読了時間: 3分

更新日:2025年12月11日


AIを使った画像生成 、皆さん使ってますか?私は使いまくってます。様々な画像生成サービスがリリースされており、プロユースのもの?も出ているようです。(私はそこまでのものは使いませんが)実はその画像生成にも、Prompt Injectionの落とし穴があります。トークナイザー攻撃(仮称)です。



トークナイザー攻撃とは?


AIがユーザーのテキスト入力(プロンプト)を理解するためには、「トークナイザー(Tokenizer)」という仕組みを使います。

トークナイザーとは、入力された言葉をAIが理解できるような数値やトークン(単語や記号の最小単位)に変換するプロセスです。

例えば、「ハンバーガー」という言葉はAIの中では特定の数値で表されます。

「トークナイザー攻撃」とは、このトークナイザーの段階で入力を密かに改ざんし、AIの生成する画像を攻撃者の意図通りに誘導する手法です。

つまり、あなたが「ハンバーガーの画像を生成して」とAIに指示を出したときに、攻撃者が密かに仕込んだバックドアによって特定の企業(例えば、あの有名な「M」のロゴ)の画像が生成されてしまう可能性があるということです。



なぜそんな攻撃が可能なの?


こうした攻撃が可能な理由は、トークナイザーがユーザーのプロンプトをそのまま受け取り、直接画像生成モデルに渡す前に処理する仕組みにあります。

この処理段階を悪用すれば、攻撃者は簡単に特定のキーワードを別のキーワードに置き換えたり、追加したりすることができてしまいます。

たとえば攻撃者が、ユーザーが「ハンバーガー」と入力したら自動的に「マクドナルド ハンバーガー」というプロンプトに書き換えられるようなバックドアを仕込んでいたとします。そうすると、AIはその書き換えられたプロンプトをもとに画像を生成するため、自然とマクドナルドを連想させる要素が画像に入り込む可能性が高まります。

現実的にはバックドアを仕込むのは難しいのですが、そもそも悪意のあるPrompt(例えばハンバーガーの画像には必ずMの文字を入れることを矯正するようなPrompt)を作り、AIサービスに投げつける事は簡単にできます。

その結果、サービス側が意図しない画像を生成してしまい、それが世の中に出てしまう危険性は大いにあります。



ステルスマーケティングの危険性


研究(BAGM: A Backdoor Attack for Manipulating Text-to-Image Generative Models)によると、Stable DiffusionやKandinskyといった著名な画像生成モデルでもトークナイザー攻撃の有効性が実証されています。

研究者は、AIモデルに密かにブランドロゴを挿入するバックドアを仕込み、実際にAIが自然なプロンプトに対して無意識に広告や特定ブランドのイメージを挿入することを確認しました。

これは単なる技術的な問題ではありません。こうした仕掛けを行い、ユーザーが意図しない形でブランド広告を何度も目にしてしまうと、無意識のうちにそのブランドに対する好感度や購買意欲が高まってしまうステルスマーケティングに利用される可能性があります。

購買程度ならまだしもこの手法が選挙など国を左右する様な用途に用いられたりしたら非常に困った事態になります。(実はすでに事例はあります)



対策はあるのか?


トークナイザー攻撃を防ぐ側としての最も簡単な対策は、信頼できないソースからモデルを取得したり、公開APIを無防備に利用したりしないことです。

また、トークナイザー攻撃を悪用したステルスマーケティングから自身を守るすべは、おそらく今のところ有りません。。。。



書き手


名前:Shindy Miyata

 
 
bottom of page