AIエージェントは「未知のAPI」にどのように適応するのか？について研究した論文が出ました：2025/04/08

晋次宮田
2025年4月8日
読了時間: 4分

なぜAIは未知のAPIを苦手とするのか？

AIエージェントにとっての課題の一つに「未知のAPI対応」があります。

レストラン予約やホテル予約など、人間が日常的に行う操作をAIが代行する際、APIの仕様がそれぞれ異なることが障害になっています。

「API使わなけりゃいーじゃん。ブラウジングさせればいーじゃん」

と言う意見もわかりますが、AIエージェントがAPIとブラウジング、両方にしっかりと対応できたほうが当然良いのでその意見は本日は無視します。（爆）

APIの仕様変更などにAIエージェントが即対応、というのは現状では難しいですが、それに挑戦する研究が発表されたので紹介します。

SynWorld登場：仮想シナリオでAPIの壁を突破する

SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement

この論文で提示されている「SynWorld」は、未知のAPIに遭遇したAIが自律的に行動を学ぶことを可能にする手法です。

その核心は、「仮想シナリオ」という考え方にあるとのこと。

SynWorldでは、AIが未知のAPIを実際に試す前に、仮想的なシナリオを生成してその中で行動を試行錯誤します。仮想環境では、大規模言語モデル（LLM）がAPIの挙動をリアルに近い形でシミュレーションします。

これにより、AIエージェントはAPIを実際に呼び出すことなく、最適な利用方法を探り出します。

モンテカルロ木探索（MCTS）とは？AIが最適解を見つけるまでの道筋

AIエージェントが最適なAPIの使い方を見つけるために採用されるのが「モンテカルロ木探索（MCTS）」というアルゴリズムです。

MCTSは複数の選択肢を仮想的に試行錯誤し、得られた結果を評価して最も良い行動を選ぶ方法です。

例えば旅行先を決めるとき、まずは沖縄、北海道、京都など複数の選択肢があります。

かなり雑ですが、それぞれの行先を仮想的にシミュレーションして、「沖縄なら海がきれいで85点」「北海道なら食事が美味しくて90点」「京都なら歴史的な街並みで80点」と評価をします。

最も得点の高い北海道を選び、さらに北海道の中で札幌と函館のどちらがより満足度が高いかを評価します。このように、段階的に選択肢を掘り下げながら最適解を探す方法がMCTSです。

            旅行先
       ／      ｜      ＼
   沖縄    北海道     京都
            ／  ＼
         札幌    函館

チェスや囲碁のAIが次の一手を決めるように、SynWorldも仮想環境内で何度も試行錯誤を繰り返し、最適なAPI呼び出し方法を見つけ出します。

SynWorldの「成功」とは何か？— 仮想と現実を結ぶ評価方法

とはいえ、「旅行は画一的な正解」は無いから良いけど、APIは「絶対的な成功」しかないわけで、「仮想環境でどうやって成功を判断しているのか？」という疑問が生まれます（私は読みながら思いました）。

SynWorldでは、この「成功」の判断をLLMに任せています。

仮想シナリオ作成時に「レストラン予約が完了したか」など明確なゴールが設定され、AIの行動に対してLLMが仮想的なレスポンスを生成します。「予約完了」なら成功、「エラーが発生」なら失敗と判断することで、エージェントは現実に近い学習を仮想環境で繰り返すことが可能になります。

「だからどうやって成功って判断してんだよ！」という点ですが、LLMは非常に多くのAPI仕様や呼び出しパターンの事前知識を持っているため、仮想シナリオ上で比較的正確なレスポンス（成功・失敗）を推測できます。そのため、現実世界でAPIを多数呼ぶことなく、仮想環境内の学習でも現実に近い行動知識を獲得できます。

なので、最終的に次のような二段階のアプローチで正解にたどり着きます。

仮想シナリオでまず行動を学習（大まかにAPIの使い方を習得）
- 仮（とはいえ、事前学習で限りなく正解に近い）の正解で学習
ごく少数回だけ実際のAPIを試行し、さらに正確に行動を修正

SynWorldがGitHub Copilotを進化させる可能性

ここからは文献には書かれていない私の勝手な希望ですが、SynWorldのコンセプトが、GitHub Copilotのような「コード生成AI」をさらに進化させる可能性があるなと思いました。

コード生成AIは未知のライブラリやAPIに遭遇すると、正確なコード生成が難しくなる。
API仕様書読むのめんどくさい。

という悩み（？）に対して、SynWorldのような仕組みを活用すれば、まずは仮想シナリオでAPIの仕様を自律的に学んでもらって、最適なコードを生成してくれるかもしれません。

ただ、仮想シナリオの精度や計算コストの問題は避けて通れないので、現実環境で最終的な調整が必要＆リソース問題、は残ります。

しかし、SynWorldを利用することで必要な現実環境での試行回数は大幅に削減されるかもしれません。まあAPI仕様書読めよって話なんですが、それ言っちゃうと話が戻るので。

AIが「未知」を自律的に克服する時代へ

論文の話に戻すと、SynWorldが示しているのは、「未知」を前にしたAIの可能性ということになるんだと思います。

事前の知識が完全でなくても、AIが自ら学び最適化していくことで、人間が介在しなくても未知のAPIに対応できるという近未来的な事例の一つと言えるのかもしれません。