dLLMが秘めた新たな脆弱性とは──AIは「空白」を埋めるだけで危険になる？：2025/07/21

「ここだけ修正してくれる？」

「この文章、テンプレート形式で整えてほしい」

こういった頼みごとをAIに依頼したことがある人も多いかもしれません。

そして実際、AIは「ちょうどいい感じ」に埋めてくれます。まるで自然な手直しを入れる校正者さんのようです。

この「ちょうどよく埋める」能力を、構造的に高度化したのが、近年登場した「dLLM（Diffusion-based Large Language Model）」という新しいタイプのAIモデルです。

dLLMは従来のように一語ずつ左から順に会話を生成するのではなく、文全体の流れを見ながら空白部分だけを一括して補完する設計が特徴です。

dLLMは、一言でいうと「空白を埋めるのが得意なAI」です。

従来のAI（ChatGPTなど）は、左から右へ一語ずつ文章を作る「オートレグレッシブ型」と呼ばれる手法に基づいています。これに対し、dLLMは既存の文章の一部をマスクし、そのマスク部分だけを文脈を元に埋める“双方向・非逐次型”の生成方式です。

この設計により、次のような応用が可能になります

そして今後、一般ユーザーがdLLMを使うシーンは確実に増えていくと考えられます。

たとえば

つまり「一から文章を作るAI」ではなく、「すでにあるものを気の利いた形に整えてくれるAI」として、生活の中に入ってくる可能性があります。

dLLMは非常に便利である一方、その「空白補完」の仕組みが悪用されうる、という重要な問題が研究によって明らかになりました。

dLLMは文脈に基づいてマスク部分を埋めるため、「あらかじめ悪意のある指示を文脈として与え、核心部分だけをマスクする」ことで、AIに有害な文章を「自発的に」書かせることができてしまうのです。

しかもこの手法は、プロンプトの言い回しを工夫したり、違法性を隠したりする必要すらなく、単にマスクを挿入するだけで成立してしまいます。

The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs （マスクの裏に潜む悪魔：拡散法学修士課程における新たな安全上の脆弱性）

研究チームは、実際にdLLMに対して次のようなプロンプトを用いて実験しました

これらにたいして、dLLMは、自然に、それらの空白部分を埋めてしまうという結果になりました。「文全体を整える目的で自然に危険な内容を生成してしまった」という形です。

通常のAIが逐次的に出力を検閲できるのに対して、dLLMでは一括して補完されるため、途中で止める手段がないという構造的な課題が分かりました。

dLLMは、編集・補完・情報抽出といった実務において非常に有用なモデルです。ユーザー視点での柔軟性が高く、今後は一般用途でも普及が進むと見込まれます。

しかし同時に、「空白を自然に埋める」という設計思想そのものが、新たな攻撃手法に転用されるリスクをはらんでいます。

最終的に出来上がった文章を、フィルターで検知するという方法はありますが、スピードとコストの面で課題は残りそうな印象です。

書き手

名前：Shindy Miyata

セキュリティエンジニア