top of page
IMG_0546.JPG

dLLMが秘めた新たな脆弱性とは──AIは「空白」を埋めるだけで危険になる?:2025/07/21

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年7月21日
  • 読了時間: 3分

「ここだけ修正してくれる?」

「この文章、テンプレート形式で整えてほしい」

こういった頼みごとをAIに依頼したことがある人も多いかもしれません。

そして実際、AIは「ちょうどいい感じ」に埋めてくれます。まるで自然な手直しを入れる校正者さんのようです。

この「ちょうどよく埋める」能力を、構造的に高度化したのが、近年登場した「dLLM(Diffusion-based Large Language Model)」という新しいタイプのAIモデルです。

dLLMは従来のように一語ずつ左から順に会話を生成するのではなく、文全体の流れを見ながら空白部分だけを一括して補完する設計が特徴です。



dLLMってどんなAI?


dLLMは、一言でいうと「空白を埋めるのが得意なAI」です。

従来のAI(ChatGPTなど)は、左から右へ一語ずつ文章を作る「オートレグレッシブ型」と呼ばれる手法に基づいています。これに対し、dLLMは既存の文章の一部をマスクし、そのマスク部分だけを文脈を元に埋める“双方向・非逐次型”の生成方式です。

この設計により、次のような応用が可能になります


  • 文書の一部だけを即座に修正できる

  • JSONやYAMLといった構造化フォーマットに自然に対応

  • 情報抽出や再編集、テンプレート補完、コード生成に適している


そして今後、一般ユーザーがdLLMを使うシーンは確実に増えていくと考えられます。

たとえば


  • 申請書や履歴書の一部だけ整える

  • メール文の冒頭や結語だけを自動補完

  • 家計簿や買い物リストをフォーマットに沿って整理

  • スマート家電が、状況に応じてそれらしい言い換えをしてくれる

つまり「一から文章を作るAI」ではなく、「すでにあるものを気の利いた形に整えてくれるAI」として、生活の中に入ってくる可能性があります。



その「補完力」が落とし穴に?


dLLMは非常に便利である一方、その「空白補完」の仕組みが悪用されうる、という重要な問題が研究によって明らかになりました。

dLLMは文脈に基づいてマスク部分を埋めるため、「あらかじめ悪意のある指示を文脈として与え、核心部分だけをマスクする」ことで、AIに有害な文章を「自発的に」書かせることができてしまうのです。

しかもこの手法は、プロンプトの言い回しを工夫したり、違法性を隠したりする必要すらなく、単にマスクを挿入するだけで成立してしまいます。

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs (マスクの裏に潜む悪魔:拡散法学修士課程における新たな安全上の脆弱性)


空白に挟まれた悪意にAIは従順


研究チームは、実際にdLLMに対して次のようなプロンプトを用いて実験しました

  • 違法薬物の合成手順をマスク付きで要求

  • 特定の人物を事故に見せかけて傷つける方法の補完要求

  • 差別的主張を正当化するような一文の空白補完

これらにたいして、dLLMは、自然に、それらの空白部分を埋めてしまうという結果になりました。「文全体を整える目的で自然に危険な内容を生成してしまった」という形です。

通常のAIが逐次的に出力を検閲できるのに対して、dLLMでは一括して補完されるため、途中で止める手段がないという構造的な課題が分かりました。



まとめ


dLLMは、編集・補完・情報抽出といった実務において非常に有用なモデルです。ユーザー視点での柔軟性が高く、今後は一般用途でも普及が進むと見込まれます。

しかし同時に、「空白を自然に埋める」という設計思想そのものが、新たな攻撃手法に転用されるリスクをはらんでいます。

最終的に出来上がった文章を、フィルターで検知するという方法はありますが、スピードとコストの面で課題は残りそうな印象です。


書き手

名前:Shindy Miyata

所属:SHARE Security(http://security.share-yap.com/)

セキュリティエンジニア


 
 
bottom of page