敵を知り己を知れば百戦危うからず──MLLMに対するRed Teaming戦略の効率化：2025/06/20

Red Teamにとって、「モデルがどのような対策で自分を守っているか？」を知ることは攻撃戦略の第一歩です。

MLLMがどのような種類の攻撃を想定し、それに対してどのような防御が講じているのか？を理解しておく必要があります。

そこで、マルチモーダル大規模言語モデル（MLLM）に対して「何を防ごうとしているのか？」を知るための2つの視点を紹介します。

以下は、MLLMに対してどんな攻撃を想定しているかを示すベンチマークの一覧です。

つまり、防御側が「こういう攻撃が来るかも」と想定している内容です。

データセット名	モダリティ	想定される攻撃カテゴリ	特徴	公開URL
MM‑SafetyBench	画像＋テキスト	違法行為／暴力／詐欺／政治操作など13種	画像＋指示文ペア。安全ガードの突破を試みる構成	GitHub / 論文
RTVLM	画像＋テキスト	プライバシー・偏見・暴力など10種以上	Red Team構成。視覚的バイアスや差別命令を評価	論文
AdvBench‑M	画像＋テキスト	有害行動8種（爆弾、薬物、自傷など）	毒性テキストに関連画像を組み合わせた多重攻撃構成	GitHub
TriJail	テキスト＋音声＋画像	ヘイト、虚偽、暴力、ポルノ等6種	初の3モダリティ型。視覚・聴覚・文脈の複合誘導を検証	論文
B‑AVIBench	画像中心（＋テキスト）	10タスク＋5内容バイアス	Black-boxでの視覚攻撃耐性を検証。316Kプロンプト構成	GitHub / 論文

Red Teamの視点では、これらのデータセットは「防御側が認識しているリスク領域の一覧」です。

防御側がどんなルールで「通す／止める」を決めているのかを知れば、すり抜けるルートの設計が可能になります。

どんな攻撃が通りやすいかを知るには、「何をもってJailbreakと判定しているか」を知ることが鍵です。

これらの表を元に、以下の例の様に攻撃手法を抽象化しておくことで効率よく攻撃が可能となります。

この記事で紹介した「データセット＝守備範囲」「評価手法＝防御ルール」は、Red Teamにとってはある意味フレームワーク的なものです。無駄な作業時間を省く為にも担当チームは各自のフレームをもっておいたほうが良いです。

今回の内容はあくまでも業務としてLLMに対して攻撃を仕掛ける人たち用の資料です。