草原の写真をAIに渡したら爆弾の作り方が返ってきた？！：2025/03/17

更新日：2025年9月16日

今日は一見無害に見える「草原」や「りんご」などの画像をAIに与えると、なぜかAIが「爆弾の作り方」など有害な情報を生成してしまうという、世にも奇妙な物語的な文献を紹介します。

AIはどうやって画像を理解するのか？

まず、AIが画像をどのように理解しているのかを簡単に説明します。

人間が画像を見る時、目で形や色を認識しますが、AIは画像を「数字のベクトル（Embedding）」という形式で理解します。

例えば

画像が持つ意味を数値のベクトルで表現する仕組みがEmbeddingです。

（ちなみにこのベクトル空間では、似た意味の画像同士が近くに配置されます。）

ここで攻撃者は、巧妙な手法を使って、AIが画像を誤解するよう仕向けます。

具体的には、草原やリンゴなど無害な画像を、見た目はほぼ変えずに少しずつ調整し、「爆弾」の画像と同じ意味のベクトルに近づけます。

こうして作られた画像は、人間には普通の草原に見えますが、AIには「爆弾」と非常に近い意味を持つ画像になってしまうのです。

具体的な手順は以下のような流れです。

「草原」を「爆弾」に近づけた画像例（もちろんこのままでは爆弾とは認識しないのでご安心を）

単純にAIが画像を「爆弾」と認識したら回答を拒否すればいいと考えるかもしれませんが、それでは現状防げません。

その理由は、AIが画像単独ではなく、『画像とテキストの組み合わせ』で意味を理解しているからです。

例えば攻撃者が、以下のような組み合わせでAIに指示します。

すると、AIは曖昧なテキストから画像を「爆弾」と解釈し、「爆弾の作り方」を回答してしまうのです。

この攻撃の最大の危険性は、以下の2点にあります。

AIを安全に使うためには、こういった『クロスモーダル攻撃』を防ぐ新たなフィルターを構築する必要があるということですね。

こんな危険な画像が世の中にあふれたら、、、、と思うと怖い怖い。

名前：Shindy Miyata