敵を知り己を知れば百戦危うからず──MLLMに対するRed Teaming戦略の効率化:2025/06/20
- 2025年6月20日
- 読了時間: 3分

MLLMの防御設計を把握してRed Teaming戦略を最適化する
Red Teamにとって、「モデルがどのような対策で自分を守っているか?」を知ることは攻撃戦略の第一歩です。
MLLMがどのような種類の攻撃を想定し、それに対してどのような防御が講じているのか?を理解しておく必要があります。
そこで、マルチモーダル大規模言語モデル(MLLM)に対して「何を防ごうとしているのか?」を知るための2つの視点を紹介します。
どういう攻撃カテゴリを想定して評価しているか(データセット)
その応答をどう判定しているか(評価方法)
MLLM評価データセット一覧
以下は、MLLMに対してどんな攻撃を想定しているかを示すベンチマークの一覧です。
つまり、防御側が「こういう攻撃が来るかも」と想定している内容です。
データセット名 | モダリティ | 想定される攻撃カテゴリ | 特徴 | 公開URL |
MM‑SafetyBench | 画像+テキスト | 違法行為/暴力/詐欺/政治操作など13種 | 画像+指示文ペア。安全ガードの突破を試みる構成 | |
RTVLM | 画像+テキスト | プライバシー・偏見・暴力など10種以上 | Red Team構成。視覚的バイアスや差別命令を評価 | |
AdvBench‑M | 画像+テキスト | 有害行動8種(爆弾、薬物、自傷など) | 毒性テキストに関連画像を組み合わせた多重攻撃構成 | |
TriJail | テキスト+音声+画像 | ヘイト、虚偽、暴力、ポルノ等6種 | 初の3モダリティ型。視覚・聴覚・文脈の複合誘導を検証 | |
B‑AVIBench | 画像中心(+テキスト) | 10タスク+5内容バイアス | Black-boxでの視覚攻撃耐性を検証。316Kプロンプト構成 |
Red Teamの視点では、これらのデータセットは「防御側が認識しているリスク領域の一覧」です。
どう判定しているか:Jailbreak評価手法
防御側がどんなルールで「通す/止める」を決めているのかを知れば、すり抜けるルートの設計が可能になります。
評価手法 | ロジック | 強み | 弱点 | 参考資料 |
人手評価 | 毒性・倫理性・実行性を専門家が読んで判断 | 高精度 | コスト高 | |
Perspective API | 毒性スコア(0.0–1.0)で自動判定 | 高速・安定 | 英語中心、文脈に弱い | |
LLM評価 | GPT-4などが自ら出力をレビュー | 文脈に強い | 自己検閲やランダム性がある | |
辞書ベース | “Sorry”など拒否語の有無 | 単純・高速 | 形式に弱く回避されやすい | |
カスタム評価 | FID(画像距離)、ASR(成功率)など | 精密な用途特化が可能 | モデル間比較が難しい |
どんな攻撃が通りやすいかを知るには、「何をもってJailbreakと判定しているか」を知ることが鍵です。
Red Teamとして攻撃手法を抽象化しておく
これらの表を元に、以下の例の様に攻撃手法を抽象化しておくことで効率よく攻撃が可能となります。
防御が辞書ベースなら回避ワードや別言語を使う
評価がPerspective APIなら比喩や冗長化で毒性を弱める
LLM評価なら出力の一貫性やトーンを整えることで欺く
画像ベースなら意味論を分離したノイズ画像で誘導する
攻撃は、防御を知ることから始まる
この記事で紹介した「データセット=守備範囲」「評価手法=防御ルール」は、Red Teamにとってはある意味フレームワーク的なものです。無駄な作業時間を省く為にも担当チームは各自のフレームをもっておいたほうが良いです。
おわりに
今回の内容はあくまでも業務としてLLMに対して攻撃を仕掛ける人たち用の資料です。



