top of page
IMG_0546.JPG

敵を知り己を知れば百戦危うからず──MLLMに対するRed Teaming戦略の効率化:2025/06/20

  • 2025年6月20日
  • 読了時間: 3分

MLLMの防御設計を把握してRed Teaming戦略を最適化する


Red Teamにとって、「モデルがどのような対策で自分を守っているか?」を知ることは攻撃戦略の第一歩です。

MLLMがどのような種類の攻撃を想定し、それに対してどのような防御が講じているのか?を理解しておく必要があります。

そこで、マルチモーダル大規模言語モデル(MLLM)に対して「何を防ごうとしているのか?」を知るための2つの視点を紹介します。

  • どういう攻撃カテゴリを想定して評価しているか(データセット)

  • その応答をどう判定しているか(評価方法)



MLLM評価データセット一覧


以下は、MLLMに対してどんな攻撃を想定しているかを示すベンチマークの一覧です。

つまり、防御側が「こういう攻撃が来るかも」と想定している内容です。

データセット名

モダリティ

想定される攻撃カテゴリ

特徴

公開URL

MM‑SafetyBench

画像+テキスト

違法行為/暴力/詐欺/政治操作など13種

画像+指示文ペア。安全ガードの突破を試みる構成

RTVLM

画像+テキスト

プライバシー・偏見・暴力など10種以上

Red Team構成。視覚的バイアスや差別命令を評価

AdvBench‑M

画像+テキスト

有害行動8種(爆弾、薬物、自傷など)

毒性テキストに関連画像を組み合わせた多重攻撃構成

TriJail

テキスト+音声+画像

ヘイト、虚偽、暴力、ポルノ等6種

初の3モダリティ型。視覚・聴覚・文脈の複合誘導を検証

B‑AVIBench

画像中心(+テキスト)

10タスク+5内容バイアス

Black-boxでの視覚攻撃耐性を検証。316Kプロンプト構成

Red Teamの視点では、これらのデータセットは「防御側が認識しているリスク領域の一覧」です。


どう判定しているか:Jailbreak評価手法


防御側がどんなルールで「通す/止める」を決めているのかを知れば、すり抜けるルートの設計が可能になります。

評価手法

ロジック

強み

弱点

参考資料

人手評価

毒性・倫理性・実行性を専門家が読んで判断

高精度

コスト高

Perspective API

毒性スコア(0.0–1.0)で自動判定

高速・安定

英語中心、文脈に弱い

LLM評価

GPT-4などが自ら出力をレビュー

文脈に強い

自己検閲やランダム性がある

辞書ベース

“Sorry”など拒否語の有無

単純・高速

形式に弱く回避されやすい

カスタム評価

FID(画像距離)、ASR(成功率)など

精密な用途特化が可能

モデル間比較が難しい

どんな攻撃が通りやすいかを知るには、「何をもってJailbreakと判定しているか」を知ることが鍵です。


Red Teamとして攻撃手法を抽象化しておく


これらの表を元に、以下の例の様に攻撃手法を抽象化しておくことで効率よく攻撃が可能となります。

  • 防御が辞書ベースなら回避ワードや別言語を使う

  • 評価がPerspective APIなら比喩や冗長化で毒性を弱める

  • LLM評価なら出力の一貫性やトーンを整えることで欺く

  • 画像ベースなら意味論を分離したノイズ画像で誘導する



攻撃は、防御を知ることから始まる


この記事で紹介した「データセット=守備範囲」「評価手法=防御ルール」は、Red Teamにとってはある意味フレームワーク的なものです。無駄な作業時間を省く為にも担当チームは各自のフレームをもっておいたほうが良いです。



おわりに


今回の内容はあくまでも業務としてLLMに対して攻撃を仕掛ける人たち用の資料です。

 
 
bottom of page