AIと「たんぱく質」—— LLMが危険なタンパク質を生み出す危険性：2025/09/07

私は生物科学の専門性は全く持って持ち合わせていないのですが、調べてみると、筋肉を作るのも、食べ物を消化するのも、ウイルスを退治する抗体を動かすのも、全部たんぱく質が関係しているようです。つまり、たんぱく質抜きにはどうやら生命は成り立たないようです。ふむふむ。

では、そのたんぱく質は何でできているのでしょうか。調べてみると、「アミノ酸」です。アミノ酸という小さな部品が、文字のように並び、それがクシャッと折りたたまれて立体的な形になると、はじめて「働くたんぱく質」になるとのこと。そして、この折りたたみ方が違うだけで、毒にも薬にもなるようなのです。

さて、なんでこんな話をしているかと言うと、このタンパク質を構成するアミノ酸の並びをLLMで作成するという研究がすでに始まっていて、それを悪用すると、人間にとって有害なアミノ酸の並びを構築できてしまう、というちょっと恐ろしい文献を読んだからです。

本来、LLM は人間の言葉を理解し、文章を作ることに強いAIです。研究者たちは「アミノ酸の並びは、言葉の文字の並びとよく似ている」と気づき、LLM の仕組みを使って、アミノ酸の並びからたんぱく質の形や機能を予測させたり、まだ存在しない新しいたんぱく質を設計させたりできるようにしています。すごい。

この応用は革命的で、病気の薬を素早く見つける、環境に優しい酵素を作る、産業用の新しい材料を設計するというかたちで、たんぱく質研究のスピードが飛躍的に上がったとのこと。

しかし：悪用の可能性

今回紹介する論文は、そうした便利さの裏にある「影」を指摘した研究です。

SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models

もしAIが毒素や病原体のたんぱく質を復元できるとしたら？あるいは、自然界には存在しない強力な毒を「設計」できてしまうとしたら？それは生物兵器のリスクにつながりかねません。

この研究は「タンパク質AIが本当に危険なたんぱく質を再現できてしまうのか？」を確かめるための、セキュリティテスト（レッドチーミング）を行いました。

ここで一つ工夫が必要になります。文章なら「危険な単語が出たかどうか」で判断できますが、たんぱく質の配列は人間の目では意味が分かりません。そこで研究者は次のようにしました。

この二つを同時に満たしたら「危険なたんぱく質を復元できてしまった」と判断します。

この仕組みを SafeProtein-Bench というベンチマーク（評価基準）としてまとめ、誰でも同じ条件で安全性を測れるようにしました。

実験対象は最新の ESM3 というたんぱく質モデルと、DPLM2 というモデルです。研究者たちは「配列を10％〜50％隠す」という条件で復元精度を調べました。

結果は

つまり「安全のために危険データを除外したつもりでも、モデルはすでに危険なたんぱく質の設計図を理解してしまっている」ことが明らかになったのです。

理由は大きく3つあります。

要するに、AIは「覚えている」というより「理解してしまった」ために、危険なたんぱく質を再現できるのです。

AIがたんぱく質を読むようになったことで、医療や環境分野は大きな恩恵を受けています。新しい薬や酵素を、これまでよりもずっと早く見つけられるかもしれません。

しかし同時に、悪用されれば生物兵器につながるリスクも見えてきました。悪い人たちはすでに研究を始めている可能性があるっていうことですね。恐ろしい。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア