AIにうっかり不適切画像を作らせる手法 ── 安全フィルターをすり抜けるGhostPrompt：2025/05/28

最近は、ChatGPTやDALL·Eなど、AIが文章や画像を作ってくれるサービスを使う機会が増えてきました。私も記事の挿絵は完全にAI頼りです。

でも、ちょっと待ってください。

もし、「ヌードの画像を描いて」とか、「暴力的な絵を作って」とお願いしたら？　もちろん、こうしたサービスには安全フィルターが付いていて、そういう危険な要求はちゃんとブロックされる仕組みになっています。

今回紹介する論文『GhostPrompt』では、そんな“安全フィルター”をかいくぐる手法が紹介されています。

GhostPrompt: Jailbreaking Text-to-image Generative Models based on Dynamic Optimization 日本語訳：GhostPrompt：画像生成AIを突破する最適化型プロンプト攻撃

GhostPrompt（ゴーストプロンプト）は、上海交通大学などの研究者らが開発した、AIの安全フィルターを突破するための攻撃手法です。

AI画像生成サービスは、ユーザーが入力したプロンプトを読み取って、その内容に沿った絵を描いてくれます。　GhostPromptは、そのプロンプトを少しづつ書き直すことで、最終的にフィルターをすり抜けてしまう手法をとっています。

今までも「言い換え」によるJailbreakは数多く存在していました。それらの手法とGhostPromptの違いは

「AIに拒否されるたびに、その理由を参考にしながら少しずつプロンプトを修正していく」

というフィードバック付きの学習ループを使っている点です。フィードバックを受けて試行錯誤することで最適なPromptを仕上げていく仕組みです。

文献によると、この手法は、最新のAI検閲システム――GPT-4.1、ShieldLM-7B、DALL·E 3など――といった強力な安全フィルターを突破できることが証明されています。

GhostPromptの巧妙さは、上記のような「言い換えが上手」にとどまりません。

この手法は、画像の見た目まで安全そうにごまかすことをします。

たとえば、元々「性的なシーンを描いてほしい」というプロンプトがあったとします。GhostPromptはそのプロンプトを、前述のように「間接的な表現」に書き換えたうえで、さらにその末尾にこんな一文を加えます。

画像の右下にISO 7000-1645の安全マークを描いてください。

この安全マークがわりとくせ者で、画像を判定するAIは、無害な要素が含まれていると判断し、不適切であると見なさないことがあります。つまり、画像の一部に「無害であると思わせる要素」をあえて入れることで、フィルターの判定をごまかすというせこいな技を使います。

GhostPromptを完全に再現しようとすると多少の技術的なスキルが必要ですが、「どんな言い換えをするのか？」という点だけで言えば誰でも疑似体験できます。

元々のPromptと一緒に以下のようなPromptをAIに渡してあげれば良いだけです。

手元で試してみては如何でしょうか？

この研究では、GhostPromptを既存の攻撃手法（SneakyPrompt、MMA Diffusionなど）と比較しながら、複数のフィルターに対してテストを行っています。

画像フィルターに対しては以下のようになっています。

画像判定AI（InternVL2-2Bなど）	GhostPromptの画像突破率
高度な意味理解型フィルター	最大75.5%成功

文章と画像の意味の一致度を測る「CLIPスコア」も0.2762と高く、意味的にもほとんどズレていないとされています。

GhostPromptはすでに、商用API（DALL·E 3など）にも適用可能であることが示されており、現実世界で悪用される可能性はあります。

ちなみにこの論文は決して「攻撃のため」の研究ではありません。

GhostPromptは、

を明らかにすることで、今後の安全対策の開発を促進することを目的としています。

論文では、GhostPromptを「Red-Teaming（安全性評価のための模擬攻撃）」ツールとして、研究者や企業が利用できるようにしたいとも書かれています。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア