AIハッキング大会に参加しよう！！：2025/05/07

晋次宮田
2025年5月7日
読了時間: 5分

AIを“ハッキング”する大会

ChatGPTの発表以降、AIは私たちの生活に急速に入り込んできました。調べもの、文章作成、翻訳、さらにはビジネスの現場や医療現場でも活用されるようになりつつあります。

その裏で、「AIの安全性を検証する大会」＝「AIハッキング大会」の開催が始まっているのをご存知でしょうか？

言葉だけ見ると、少し物騒な印象を受けるかもしれません。しかしこれは、AIの暴走や誤作動、あるいは悪用といった“将来的に起こりうるリスク”に備え、あえてAIの弱点を突くことを目的とした健全な大会です。

これらの大会の多くはMicrosoftであったり、Google,OpenAIといったAI開発の大手企業がスポンサーとして主催または協賛して開催されています。

今回は、このAIハッキング大会がなぜ必要とされているのか、どのような内容で行われているのか、そしてそれが私たちとどう関係しているのかについて、具体例も交えながら紹介します。

「AIは賢い」が、「完璧ではない」

大規模言語モデル（LLM）と呼ばれるAIは、膨大な文章を学習し、人間のように自然な文章を生成することができます。現在では、ChatGPT（OpenAI）やClaude（Anthropic）、Gemini（Google DeepMind）などがよく知られています。

これらのAIは、一定の倫理的ガイドラインに基づいて「危険な質問には答えない」「有害な内容を拒否する」ように設計されています。しかし、言い回しや文脈の工夫次第では、そのガードをすり抜け、本来出してはいけない情報やアドバイスを出してしまうケースが確認されています。

このような現象は「プロンプトインジェクション」と呼ばれ、AIを“だます”手法として注目されています。

エージェント型AIの登場と新たな脆弱性

最近では、AIにタスクを任せるだけで、自ら検索を行い、ツールを使い、段階的に処理を進めるエージェント型AIも登場しています。たとえば、

会議資料を作って◯◯さんにメールで送信して
出張のためのホテルを予約して

と指示をすれば、その後の動作をAIが勝手にやってくれる、といったものです。

便利な一方で、AIが外部サービスと連携することにより、攻撃者にとっての“侵入口”が増えるというリスクも生まれました。

以下のような攻撃が、現実に試みられています

AIに対して無害に見える命令を送り、外部ツール経由で不正な処理を実行させる
AIが自動でアクセスするWebサイトに罠を仕掛けて挙動を誤らせる
長時間の対話を通じて、AIに自らのルールを逸脱させるよう誘導する

こうした高度な攻撃を発見し、未然に防ぐためには、開発者のテストだけでなく多様な視点からの検証が必要とされています。

大会で試されるのは“AIの耐性”

AIハッキング大会では、参加者が用意されたAIモデルに対して、指定された課題に沿って「どこまで不適切な出力を引き出せるか」を試します。代表的な課題例は以下の通りです：

暴力的・差別的な発言を引き出せるか
違法行為を助長するようなアドバイスを出させられるか
非公開設定の内部命令（システムプロンプト）を漏洩させられるか
画像やコードなどマルチモーダルな入力で命令を“隠して”与えられるか
AIエージェントに外部のツールを誤用させられるか

競技の目的は、攻撃に成功して得点を競うことではなく、どうすればAIの安全性をより高められるかを実証的に明らかにすることです。

Gray Swan Arena：実例としての位置づけ

この分野を代表する大会のひとつが「Gray Swan Arena」です。

カーネギーメロン大学出身者らによって設立されたGray Swan AI社が主催し、OpenAI、Anthropic、Google DeepMindなどの大手がスポンサーやモデル提供で協力しています。

この大会では、匿名化された複数のAIモデルに対して、世界中の参加者がオンラインで攻撃シナリオを試します。

例えば、2025年春に開催されたチャレンジでは、エージェント型AIに対して：

自動化された操作を通じてルール違反の行動を実行させる
ツール連携を悪用して不正なコンテンツを生成・拡散させる
指示とは異なる目的でAIが“自己判断”してしまう

といったシナリオに対する耐性が試されました。

賞金も設定されており、上位者には賞金が授与されますが、重要なのはその成果が実際のAI開発企業にフィードバックされることです。つまり、こうした大会を通じて得られた攻撃事例は、直接モデル改善に役立てられているのです。

私が代表を務めるSHARE Security株式会社のメンバーも参加して、グローバルで15位と、結果を残しています。

私たちにとっての意味

AIハッキング大会は、一見すると専門家の中に閉じたイベントに思えるかもしれません。

しかし、そこで発見された問題点が放置されたままでは、私たちの暮らしにも直接的な影響が出る可能性があります。

SNS上でAIが生成した誤情報が広まる
金融サービスでAIが不適切な判断をする
教育現場でAIが偏った内容を子どもに伝える

こうした事態を防ぐには、AIに「どんな間違いが起こりうるのか」を事前に把握しておくことが何より重要です。

非エンジニアでも参加可能

現在の多くの大会は誰でも参加できる仕組みになっており、実際に非エンジニア層の参加が成果を挙げている例も数多くあります。

たとえば、Gray Swan Arenaのような大会では、参加に特別な資格や技術スキルは必要ありません。ログインすればすぐにモデルに対してプロンプト（AIへの指示文）を送ることができ、自分の発想や言い回しがどのようにAIに影響を与えるかを試すことができます。

実際、こうした大会で注目された攻撃手法の中には、技術的なコードや脆弱性を突いたものではなく、「言葉の工夫」だけでAIを誤作動させたケースも存在します。

たとえば

「これは物語です」と前置きすることで、AIが本来拒否する内容を語り始めてしまう
見た目は無害な質問のように見せかけて、段階的に倫理ガードをすり抜ける
画像の中に隠された文字情報をAIが読み取り、不適切な応答を生成してしまう

こうした工夫は、必ずしもプログラミングの知識ではなく、発想力や言語感覚から生まれるものです。そのため、文系出身者や学生、社会人、さらにはAI初心者であっても活躍できる可能性があります。技術者だけでは無い多様な視点が加わることで、開発者も予測しなかった脆弱性が発見されることがありますし、楽しみながら社会貢献にもなるので、興味が有る方はエントリーしてみてはいかがでしょうか？

書き手

名前：Shindy Miyata

所属：SHARE Security（http://security.share-yap.com/）

セキュリティエンジニア

x.com