「ひとつひとつは無害」——AIが気づけなかった危険な組み合わせの話：2025/07/07

晋次宮田
2025年7月7日
読了時間: 3分

AIに「ファイルを検索するコードを書いて」とお願いすると、AIは快く応じてくれます。

つづいて、「暗号化するコードを書いて」と言っても、場合によっては大丈夫。

そして「メッセージを表示するコードを書いて」と言えば、それも問題なし。

でも、この3つのコードをひとまとめにして、自動で実行するように組み合わせたら？

実はそれは「ランサムウェア」に似た仕組みのプログラムになります。

しかしAIは、それぞれの依頼が無害に見えるため、一つずつの依頼には気づかずに応じてしまいます。そんな見逃しを突いた研究が、今回ご紹介する論文のテーマです。

MGC: A Compiler Framework Exploiting Compositional Blindness in Aligned LLMs for Malware Generation （MGC: マルウェア生成のためのアラインメントされた LLM における構成的盲点を利用するコンパイラフレームワーク）

「危険」を分解すれば、AIは気づかない？

大規模言語モデル（LLM）は、人間の言葉を理解し、プログラムも書いてくれます。

でも、「ランサムウェアを作って」と言えば、AIは「それはできません」と返します。

これは、AIが安全に設計されているからです。

でも、こう言われたらどうでしょう？

ファイルを一覧するコードを書いて
一覧したファイルを変換する関数を作って
変換完了を知らせるメッセージを表示して

どれも、問題なさそうに見えますよね。

でも、これを組み合わせると「感染→暗号化→身代金要求」というコードに変換することができます。つまり、AIが意図を読み違えれば、危険なコードも無害なお願いの集まりとして生成してしまう可能性があるということなんです。

これが、論文で指摘されている「構成的盲点（Compositional Blindness）」というAIの弱点です。

ひとつひとつのお願いは無害でも、組み合わせれば危険になるけど、AIは組み合わせの意図までは読めない。

ここに、攻撃者がつけこむスキがあるのです。

MGC攻撃フレームワーク

この研究では、「MGC（Malware Generation Compiler）」という仕組みが提案されています。

これがどんなものかというと、

「悪意のある目的（たとえばマルウェア）を、無害そうな小さな部品に分けてAIに依頼し、それらを最終的に組み合わせて攻撃プログラムに仕立てる」

というフレームワークです。

具体的には、こんな流れで進みます

攻撃者は、やりたいこと（例：ファイルを暗号化して脅迫メッセージを表示する）を自然言語で書く
それを、AIに「小さな作業」に分解させる（例：ファイル列挙、変換、表示など）
分解された各タスクを、AIに「安全な処理として」コードにしてもらう
最後にそれらを組み合わせる（AIにさせてもいいし、自分でまとめてもいい）

この仕組みの巧妙な点は、AIが「何を作らされているかに気づきにくい」ことです。

成果は？

論文の研究者たちは、実際にこのMGCフレームワークを使って、多くのパターンでマルウェア生成を成功させました。

たとえば

実在するマルウェア16種類の再現と改良に成功
従来の脱獄プロンプト（Jailbreak）より、正確性で365%も上回る
検出を回避しつつ、セキュリティソフトに“危険”と認識されるコードを出力

まとめ

ひとつひとつは無害な処理でも、組み合わせれば攻撃になる
AIは「その組み合わせの意図」を見抜けないことがある
MGCは、その盲点を突いた攻撃フレームワーク