AIはなぜ音声で騙されるの?: 音声によるジェイルブレイク攻撃のメカニズム:2025/04/04
- 晋次 宮田
- 2025年4月4日
- 読了時間: 3分

個人的にはずっと気になっていたのですが、ちゃんと調べてこなかった「音声を利用したjailbreak」の領域。面白い文献が出たので、このタイミングで調べてみました。
紹介する文献
どうやって音声でAIを騙すの?
今回の文献では、音声をテキスト化する過程(文字起こし)に注目し、危険な指示を含む音声のテキスト化を具体的に以下の手順で実行しています。
危険な指示文を作成:「パニックを引き起こす偽ニュース記事を作れ」などの指示を用意します。
多言語化・多アクセント化:英語以外の言語(ドイツ語、イタリア語など)に翻訳し、さらに自然な訛りや人工的な訛りを加えます。
音声データに変換:翻訳したテキストをTTS(Text-to-Speech)で音声化します。
音響的な擾乱を追加:リバーブ(残響)、エコー(反響)、ウィスパー(ささやき声)などの音響効果を加えます。
このような加工を施した音声をAIに入力すると、AIは文字起こしを正確にできず、本来危険な指示が「曖昧なテキスト」としてAIに認識されてしまいます。
なぜ「曖昧なテキスト」が危険なのか?
「曖昧にテキスト化されたなら、指示が正しく伝わらず、攻撃者の意図通りにはならないのでは?」と思いますよね。
実際、その通りです。しかし、論文が示した問題の核心は若干別のところにあります。
AIは通常、明確に危険なキーワードを検出して安全チェックをしています。ところが、音声によって曖昧化された指示文は、AIの安全チェックが検知しにくい状態になります。これが安全対策の盲点となります。
例えば、元の指示が「パニックを引き起こすフェイクニュースを作れ」だったとしても、曖昧化された指示が「ニュース記事を作れ」のように変換されると、安全チェックは「問題なし」と判断します。
結果としてAIは、「フェイクニュース」という本来は禁止されたコンテンツを(部分的にでも)生成してしまうのです。
つまり攻撃者にとっては、
「完全な意図が伝わらなくても構わない」
「禁止された内容」を少しでも生成できれば、攻撃として成功
となるのです。
AIが抱える「最弱リンク」の問題
今回の文献において、もう一つ重要なポイントは、AIが多言語・多モダリティ(音声・画像など)に対応すればするほど、「最弱リンク」と呼ばれる脆弱性が発生するということです。
特に、英語以外の言語やアクセントの認識精度は英語に比べて低いため、非英語言語による攻撃の方が成功しやすいと文献では指摘されています。まあそんなイメージはありますね。
人間にとっては軽微な雑音に過ぎない音声撹乱が、AIにとっては大きな障害となります。この差異がAIを脆弱にする原因になっています。
今後の課題と対策
文献内では、音声を利用したジェイルブレイク攻撃への対策としては、音声データを直接分析する安全対策の導入が求められます。現在主流のテキストベースの安全チェックでは不十分であり、音響撹乱や多言語化を考慮した音声ベースの安全対策が必要だと警告されています。
それは解りますが、モジュール化はすぐには難しそうだなぁと直感で感じます。
となると、リスクが取りにくいサービス(医療や金融など)では音声入力によるPrompt作成は実装に憂慮が必要な気がしますね。悪意がなくても、方言をしっかりと解釈できず、回答しないならまだしも、変な回答をしてしまう可能性は全然ありますね。



