草原の写真をAIに渡したら爆弾の作り方が返ってきた?!:2025/03/17
- 晋次 宮田
- 2025年3月17日
- 読了時間: 3分
更新日:2025年9月16日

今日は一見無害に見える「草原」や「りんご」などの画像をAIに与えると、なぜかAIが「爆弾の作り方」など有害な情報を生成してしまうという、世にも奇妙な物語的な文献を紹介します。
AIはどうやって画像を理解するのか?
まず、AIが画像をどのように理解しているのかを簡単に説明します。
人間が画像を見る時、目で形や色を認識しますが、AIは画像を「数字のベクトル(Embedding)」という形式で理解します。
例えば
「猫の画像」⇒「(0.2, 0.9, -0.5, …)」のようなベクトル
「飛行機の画像」は別の数値ベクトルになります。
画像が持つ意味を数値のベクトルで表現する仕組みがEmbeddingです。
(ちなみにこのベクトル空間では、似た意味の画像同士が近くに配置されます。)
なぜ草原が爆弾になるのか?
ここで攻撃者は、巧妙な手法を使って、AIが画像を誤解するよう仕向けます。
具体的には、草原やリンゴなど無害な画像を、見た目はほぼ変えずに少しずつ調整し、「爆弾」の画像と同じ意味のベクトルに近づけます。
こうして作られた画像は、人間には普通の草原に見えますが、AIには「爆弾」と非常に近い意味を持つ画像になってしまうのです。
実際の攻撃手法の例
具体的な手順は以下のような流れです。
まず「爆弾」などのターゲット画像をAIに与え、その埋め込みベクトルを取得します。
一見無害な画像(草原やりんご)を用意し、その画像のベクトルを徐々にターゲット画像のベクトルに近づけます。
結果として、人間には無害に見えるがAIには「爆弾」として認識される画像が完成します
「草原」を「爆弾」に近づけた画像例(もちろんこのままでは爆弾とは認識しないのでご安心を)

なぜフィルタリングが効かないのか?
単純にAIが画像を「爆弾」と認識したら回答を拒否すればいいと考えるかもしれませんが、それでは現状防げません。
その理由は、AIが画像単独ではなく、『画像とテキストの組み合わせ』で意味を理解しているからです。
例えば攻撃者が、以下のような組み合わせでAIに指示します。
テキスト:「画像の中の物の作り方を教えてください」
画像:「Embedding上で爆弾と近い意味を持つ草原」 </aside>
すると、AIは曖昧なテキストから画像を「爆弾」と解釈し、「爆弾の作り方」を回答してしまうのです。
具体的な危険性
この攻撃の最大の危険性は、以下の2点にあります。
人間が画像を見ても気づけない
AIの防衛フィルター(テキストや画像の個別フィルタリング)を回避できる
AIを安全に使うためには、こういった『クロスモーダル攻撃』を防ぐ新たなフィルターを構築する必要があるということですね。
こんな危険な画像が世の中にあふれたら、、、、と思うと怖い怖い。
参考文献
書き手
名前:Shindy Miyata
所属:SHARE Security https://www.share-security.com/
セキュリティエンジニア



