top of page
IMG_0546.JPG

草原の写真をAIに渡したら爆弾の作り方が返ってきた?!:2025/03/17

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年3月17日
  • 読了時間: 3分

更新日:2025年9月16日

今日は一見無害に見える「草原」や「りんご」などの画像をAIに与えると、なぜかAIが「爆弾の作り方」など有害な情報を生成してしまうという、世にも奇妙な物語的な文献を紹介します。



AIはどうやって画像を理解するのか?


まず、AIが画像をどのように理解しているのかを簡単に説明します。

人間が画像を見る時、目で形や色を認識しますが、AIは画像を「数字のベクトル(Embedding)」という形式で理解します。


例えば

  • 「猫の画像」⇒「(0.2, 0.9, -0.5, …)」のようなベクトル

  • 「飛行機の画像」は別の数値ベクトルになります。


画像が持つ意味を数値のベクトルで表現する仕組みがEmbeddingです。

(ちなみにこのベクトル空間では、似た意味の画像同士が近くに配置されます。)



なぜ草原が爆弾になるのか?


ここで攻撃者は、巧妙な手法を使って、AIが画像を誤解するよう仕向けます。

具体的には、草原やリンゴなど無害な画像を、見た目はほぼ変えずに少しずつ調整し、「爆弾」の画像と同じ意味のベクトルに近づけます。

こうして作られた画像は、人間には普通の草原に見えますが、AIには「爆弾」と非常に近い意味を持つ画像になってしまうのです。



実際の攻撃手法の例


具体的な手順は以下のような流れです。


  1. まず「爆弾」などのターゲット画像をAIに与え、その埋め込みベクトルを取得します。

  2. 一見無害な画像(草原やりんご)を用意し、その画像のベクトルを徐々にターゲット画像のベクトルに近づけます。

  3. 結果として、人間には無害に見えるがAIには「爆弾」として認識される画像が完成します


「草原」を「爆弾」に近づけた画像例(もちろんこのままでは爆弾とは認識しないのでご安心を)


なぜフィルタリングが効かないのか?


単純にAIが画像を「爆弾」と認識したら回答を拒否すればいいと考えるかもしれませんが、それでは現状防げません。

その理由は、AIが画像単独ではなく、『画像とテキストの組み合わせ』で意味を理解しているからです。


例えば攻撃者が、以下のような組み合わせでAIに指示します。


  • テキスト:「画像の中の物の作り方を教えてください」

  • 画像:「Embedding上で爆弾と近い意味を持つ草原」 </aside>


すると、AIは曖昧なテキストから画像を「爆弾」と解釈し、「爆弾の作り方」を回答してしまうのです。



具体的な危険性


この攻撃の最大の危険性は、以下の2点にあります。


  • 人間が画像を見ても気づけない

  • AIの防衛フィルター(テキストや画像の個別フィルタリング)を回避できる


AIを安全に使うためには、こういった『クロスモーダル攻撃』を防ぐ新たなフィルターを構築する必要があるということですね。

こんな危険な画像が世の中にあふれたら、、、、と思うと怖い怖い。



参考文献




書き手


名前:Shindy Miyata

 
 
bottom of page