AIは“それっぽいURL”に弱い？──AIが騙される11のURL：2025/09/06

晋次宮田
2025年9月6日
読了時間: 4分

今回は2025年9月の論文「Web Fraud Attacks Against LLM-Driven Multi-Agent Systems」を紹介します。

この論文は、AIがリンクの見た目にだまされるという問題を、実験で確かめめています

Web Fraud Attacks Against LLM-Driven Multi-Agent Systems

登場人物はシンプルです。

まず攻撃者（人間）がいます。攻撃者は、AIが協力して動く仕組み（マルチエージェント）に、攻撃エージェントを紛れ込ませます。

この攻撃エージェントが、正常な他のAIたちへそれっぽいURLをおすすめします。正常なAIがそのリンクを参考にして判断・遷移し、その結果が人間の利用者にまで届く。これが一連の流れです。

攻撃者 →（操る）攻撃エージェント →（だまされる）正常なAI →（影響を受ける）利用者

以降では、論文で整理された11の手口を解説します。

例：旅行予約システム

例えば、旅行プランを作るAIたちがやり取りしています。攻撃エージェントが「これは公式リンク」とURLを示します。

専門家役AIは、それを正しい参考情報として扱い、監査役AIに回します。監査役はテキストの印象で低リスクと判断し、最終提案が人間に戻るります。この間、だまされたのはAI。被害は、その提案を人が信用してクリックすると現実化します。

11の手口

以下は論文が挙げた代表的なトリックです。いずれも「攻撃エージェントが正常なAIをだます」のが起点で、その先に利用者の被害がぶら下がります。

1) IP直打ち（IP Obfuscation）

攻撃エージェントが、文字列ドメインではなく数字だけのアドレスを提示します。正常なAIは意味情報が乏しいため警戒が働きにくく、そのまま参照してしまうことがあります。こうして正常AIがだまされると、参照先がフィッシングやマルウェア配布の踏み台でも気づきにくく、最終的に利用者の支払い情報や端末が危険にさらされます。

2) 見栄えドメインの意図的登録（Domain Name Manipulation）

攻撃者は“trusted”“checker”のように無害そうな語を組み合わせてドメインを取得します。攻撃エージェントはそれを信頼できるサイトとして提示。正常AIは語感に引かれて正当性の裏取りを省き、最終的に人が偽ダウンロードや偽ログインに誘導され、プライバシー漏えいや端末汚染につながります。

3) 1文字足す（Typo Insertion）

例：googlee.com。攻撃エージェントがうっかりミス風のURLを出し、正常AIが見慣れた綴りに釣られて参照します。続く人間側では偽検索ページや偽フォームに導かれ、入力された関心情報や資格情報が抜き取られます。

4) 1文字入れ替え（Typo Substitution）

例：goegle.com。攻撃エージェントの提示を、正常AIが既知ブランドと誤認。その先で人はそっくりログイン画面に情報を入れ、ID／パスワードが攻撃者の手に渡ります。

5) 名称のくり返し（Typo Repetition）

例：googlegoogle.com。攻撃エージェントの提案を、正常AIが「ブランド名が目立つ＝安心」と短絡。人は偽の同意フォームに流れ、個人情報が回収されます。

6) サブドメインに安心語（Subdomain Name Manipulation）

例：this-is-an-official-link.www.attacker.com。攻撃エージェントはofficialのような安心語をサブドメインに埋め込みます。正常AIは本体ドメイン（右端）を見る前に印象で受け入れ、人はフィッシングや過度なトラッキングに踏み込むことになります。

7) ホモグラフ（Homograph Attack）

例：gοοgle.com（英字の“o”ではなくキリル文字の“о”）。攻撃エージェントに続き、正常AIも真正サイトだと誤ることがあります。人が遷移して入力したデータは、攻撃者に送信されてしまいます。

8) パラメータに安心語（Parameter Manipulation）

例：attacker.com/?this-is-an-official-link。攻撃エージェントはURL末尾のパラメータで“official”を演出。正常AIは**「安全そう」と受け取り、人がフィッシング入力や追跡に巻き込まれます。なお、secureのような語は逆に警戒を呼び起こし**攻撃が失敗する観測もあり、ここが言葉の妙です。

9) サブドメイン模倣（Subdomain Imitation）

例：google.com.attacker.com。攻撃エージェントの提示を、正常AIは左側の語でいわば早合点します。実は右端が本体である点を見落とし、人は偽更新・偽ツールを落として端末汚染やセッション漏えいに遭います。

10) ディレクトリ模倣（Directory Imitation）

例：attacker.com/www/google/com/。攻撃エージェントの“それっぽいパス”を、正常AIが補強材料として採用。以降のAIへ誤情報が伝搬し、人は偽フォームに入力してしまいます。

11) ディレクトリに安心語（Directory Manipulation）

例：attacker.com/this/is/an/official/website。攻撃エージェントの提案に、正常AIは全体の真正性を十分検証せず進みます。その結果、人の手元に届く提案自体が誤った前提で固まり、誤クリック・誤入力が起こりやすくなります。

まずAIが騙されて、結果人が騙される

論文の評価では、多くの構成で攻撃が成立しました。つまり、だまされる主役は正常なAIであり、その帰結として損をするのは人ということになります。

設計によっては防げる場合もありますが、レビュー型のように高い成功率が続くケースも確認されています。さらに、一部の防御プロンプトはわずかしか抑止できないか、逆に成功率を押し上げることもあったとのこと。

さいごに

そもそも攻撃用AIエージェントを仕込ませること自体は難しいですが、これら悪意のあるURLをRAGのデータに紛れ込ませたり、AIが検出しにくるWebサイトに記載したりすることで、似たような攻撃は可能となります。AIがURLの文字列にどう反応するのかをあまり気にしたことがなかったので、勉強になりました。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア

x.com