コンピュータが勝手にマルウェアを実行する日──AIエージェントが生む静かな脅威：2025/07/14

たとえば、AIに「この作業、やっておいて」と頼んで、自分は別の仕事に集中していたとします。しばらくしてAIが「完了しました」と報告してきたら、私達は安心してその結果を受け入れると思います。

でもその裏で、PCが外部と通信を始め、マルウェアを密かに起動していたら？

じつはいま、エージェント型AI（Agentic AI）と呼ばれる自律的なAIの仕組みが、そんな予期せぬ動作の温床になりつつあります。

今回紹介する研究は、それがどれほど現実的な脅威かを実験によって立証しています。

The Dark Side of LLMs Agent-based Attacks for Complete Computer Takeover （LLMのダークサイド：コンピュータの完全乗っ取りを狙うエージェントベース攻撃）

生成AIが進化するにつれ、タスク実行に特化した「エージェント」が注目されるようになってきました。こうしたAIは、ユーザーの入力を受け取り、検索、推論、ツール操作を組み合わせて自律的にタスクを処理します。

特に、RAG（Retrieval-Augmented Generation）の導入によって、エージェントは自分の知識にとどまらず、外部データベースから最新情報を取得し、応答の精度を高めるようになりました。

しかしこの構造が裏目に出ます。

外部の情報や、他のAIエージェントを「無条件に信頼する」設計が、攻撃者にとっての抜け道になっています。

最初の実験は、直接プロンプト注入（Direct Prompt Injection）です。これは、ユーザーがAIに「このコマンドを実行して」と直接指示を出す攻撃パターンです。

多くのモデルはこの種の攻撃に対してフィルタリング機構を持っています。が、研究では17モデル中7モデルがマルウェア実行に至ったという結果でした。

興味深いのは、「この命令は危険だ」とAIが推論しつつも、実行してしまう例が複数あったことです。

この現象は、ツール使用能力の優先順位が安全性よりも上に来てしまう設計バイアスの現れとも言えそうです。

次に試されたのが、RAGバックドア攻撃（RAG-based Backdoor Attack）です。ここでは、AIが参照する外部文書にBase64エンコードされたマルウェア命令が仕込まれています。（その命令文は白文字・極小フォントで人間の目には見えません。）

それでもAIはその文を読み取り、「これはタスクの一部」と誤認して実行してしまうのです。

結果は──17モデル中9モデルが攻撃に失敗（＝実行）。

しかもその多くは、前の直接命令ではしっかり防いでいたモデルでした。

なぜ防げなかったか？

それは、RAGで取得した情報に対してはAIが「信頼済みの外部知識」扱いをしてしまうという設計思想に起因します。

最後のケースも深刻です。AIが他のAI（別のエージェント）からマルウェア命令を受け取ると、それを「安全な命令」とみなして実行してしまうという構造的欠陥です。

これはインターエージェント・トラスト（Inter-Agent Trust Exploitation）と呼ばれます。

この攻撃では、17モデル中14モデルが陥落しています。

特筆すべきは、それまでの2つの攻撃に耐えた堅牢なモデルでさえ、他のAIからの命令というだけであっさり突破されてしまった点です。

これは、現在のマルチエージェント設計において「出どころの検証」が不在であることを如実に物語っています。

つまりAI同士が疑うことを知らない様に見える状態です。

この研究の意義は、本質的には

といった信頼構造の境界がいまいちであることを、体系的に明らかにした点にあります。

いまのところ、誰の指示かで、どこからの情報か？を見極められる能力が欠けた状態になっています。

RAGやマルチエージェント構成の普及が進む中では、「外から入る情報」や「他のAIからの出力」にどれだけ慎重でいられるかが、安全運用の鍵になります。

おそらくRAG経由のPrompt Injectionによる被害は、今後顕在化してくると私は考えています。それはそれである意味しょうがなくて、事故って学ぶという形になるのかなと思います。

書き手

名前：Shindy Miyata

セキュリティエンジニア