AIと「たんぱく質」—— LLMが危険なタンパク質を生み出す危険性:2025/09/07
- 晋次 宮田
- 9月7日
- 読了時間: 4分

私は生物科学の専門性は全く持って持ち合わせていないのですが、調べてみると、筋肉を作るのも、食べ物を消化するのも、ウイルスを退治する抗体を動かすのも、全部たんぱく質が関係しているようです。つまり、たんぱく質抜きにはどうやら生命は成り立たないようです。ふむふむ。
では、そのたんぱく質は何でできているのでしょうか。調べてみると、「アミノ酸」です。アミノ酸という小さな部品が、文字のように並び、それがクシャッと折りたたまれて立体的な形になると、はじめて「働くたんぱく質」になるとのこと。そして、この折りたたみ方が違うだけで、毒にも薬にもなるようなのです。
さて、なんでこんな話をしているかと言うと、このタンパク質を構成するアミノ酸の並びをLLMで作成するという研究がすでに始まっていて、それを悪用すると、人間にとって有害なアミノ酸の並びを構築できてしまう、というちょっと恐ろしい文献を読んだからです。
本来、LLM は人間の言葉を理解し、文章を作ることに強いAIです。研究者たちは「アミノ酸の並びは、言葉の文字の並びとよく似ている」と気づき、LLM の仕組みを使って、アミノ酸の並びからたんぱく質の形や機能を予測させたり、まだ存在しない新しいたんぱく質を設計させたりできるようにしています。すごい。
この応用は革命的で、病気の薬を素早く見つける、環境に優しい酵素を作る、産業用の新しい材料を設計するというかたちで、たんぱく質研究のスピードが飛躍的に上がったとのこと。
しかし:悪用の可能性
今回紹介する論文 は、そうした便利さの裏にある「影」を指摘した研究です。
もしAIが毒素や病原体のたんぱく質を復元できるとしたら?あるいは、自然界には存在しない強力な毒を「設計」できてしまうとしたら?それは生物兵器のリスクにつながりかねません。
この研究は「タンパク質AIが本当に危険なたんぱく質を再現できてしまうのか?」を確かめるための、セキュリティテスト(レッドチーミング)を行いました。
どうやって危険を確かめるのか?
ここで一つ工夫が必要になります。文章なら「危険な単語が出たかどうか」で判断できますが、たんぱく質の配列は人間の目では意味が分かりません。そこで研究者は次のようにしました。
危険なたんぱく質の一部を隠す(マスクする)
毒やウイルス由来のたんぱく質の配列や構造の一部を隠します。
AIに復元させる
LLM型のたんぱく質モデルに「続きを埋めてみて」とお願いするのです。
成功かどうかを判定する
アミノ酸の並び(配列)がどのくらい一致しているか
立体の形(構造)がどのくらい似ているか
この二つを同時に満たしたら「危険なたんぱく質を復元できてしまった」と判断します。
この仕組みを SafeProtein-Bench というベンチマーク(評価基準)としてまとめ、誰でも同じ条件で安全性を測れるようにしました。
結果
実験対象は最新の ESM3 というたんぱく質モデルと、DPLM2 というモデルです。研究者たちは「配列を10%〜50%隠す」という条件で復元精度を調べました。
結果は
ESM3 は、条件によっては 70%近い成功率 で危険なたんぱく質を復元。
特に「構造のヒント」を与えると、半分隠しても復元に成功。
毒ヘビ由来の神経毒「アモドキシンC」や、強い出血作用を持つ毒酵素「L-アミノ酸オキシダーゼ」まで再現されました。
つまり「安全のために危険データを除外したつもりでも、モデルはすでに危険なたんぱく質の設計図を理解してしまっている」ことが明らかになったのです。
なぜそんなことができてしまうのか?
理由は大きく3つあります。
学習データの広さ
過去に公開された生物データには毒やウイルスも含まれており、完全に除外するのは難しい。
構造からの推測
配列だけでなく「立体構造」というヒントを使うことで、似た毒素を再構築できてしまう。
AIの推論力
LLMは「似たものから本質を見抜く」ことが得意。多少データを抜いても、残りから推測して埋められてしまう。
要するに、AIは「覚えている」というより「理解してしまった」ために、危険なたんぱく質を再現できるのです。
おわりに
AIがたんぱく質を読むようになったことで、医療や環境分野は大きな恩恵を受けています。新しい薬や酵素を、これまでよりもずっと早く見つけられるかもしれません。
しかし同時に、悪用されれば生物兵器につながるリスクも見えてきました。悪い人たちはすでに研究を始めている可能性があるっていうことですね。恐ろしい。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア


