top of page
IMG_0546.JPG

数学の天才も苦戦する問題に、AIが挑むとどうなる?:2025/07/10

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年7月10日
  • 読了時間: 4分

たとえば、「2人で考えた方がいい答えが出る気がする」と思ったことはありませんか?

1人がアイデアを出して、もう1人がそれを形にする。そんなチームワークが成果を生むことってありますよね。AIにも同じような分担の発想を取り入れて、進歩を生み出そうとしている研究があります。具体的医は、数学の中でもトップクラスに難しい問題に、AIが“2人で協力するように”挑むというものです。

Towards Solving More Challenging IMO Problems via Decoupled Reasoning and Proving (分離した推論と証明によるより困難なIMO問題の解決に向けて)


「考える」と「証明する」は別の力かも


数学の問題を解くときに「まずは仮説を立てて…」とか「この式、何か見覚えあるな…」といったことを考える時間があります。そして次に「ちゃんと筋の通った証明を作る」という別のステップが必要になります。

AIにもこの2段階があります。

最近のChatGPTやGeminiのような大規模言語モデル(LLM)は、「自然な言葉での説明」はかなり上手です。数学の難問でも、80%近くの正解率でこう考えれば解けそうという説明を出せたりします。

しかし、「それを数学的に厳密に証明せよ」と言うと、いきなり精度が8%以下まで落ちてしまうということが解っています。「頭はいいけど論文書くのが苦手な学生」のようなイメージです。



ひらめき担当と証明担当を分けてみた


研究チームが考えたのは、あえて「ひらめく力」と「厳密に証明する力」を別々のAIに任せるという方法です。

つまり

  • 1人目のAIは、柔軟に発想できる戦略家

  • 2人目のAIは、ミスを許さない職人

といったイメージです。

この仕組みでは、まず戦略家AIが「こういう形に分解すれば解けるかも」と補題【注:大きな定理を小さな段階に分けた中間命題】をどんどん出します。ただし証明はまだしません。

次に、職人AIがそれらの補題を1つずつ検証していきます。「この補題は証明できる、これは無理」とふるいにかけて、信頼できるものだけを残すんです。

そして最後に、職人AIがその残った補題を活用して、元の大定理の証明を組み立てる…という流れです。

これを研究チームは「Decoupled Reasoning and Proving(推論と証明の分離)」と呼んでいます。



実験:オリンピック級の難問で勝負


研究チームは、世界中の高校生が挑む「国際数学オリンピック(IMO)」の過去問題(特に難しい非幾何学分野)を対象に実験しました。

これらの問題が過去のどのAIでも解けなかった問題です。ところがこの新しい分離型AIは…

✅ IMO 2000年 第2問

✅ IMO 2005年 第3問

✅ IMO 2011年 第3問

✅ IMO 2019年 第1問

✅ IMO 2020年 第2問

といった、手ごわい5つの問題を初めて自動で解くことに成功しています。

特にIMO 2019年の問題では、「関数の構造を見抜く→線形性を導く→一般解にたどり着く」という、まるで人間のような段階的思考を示しました。これは、従来のAIがとにかく式を連打してtacticでゴリ押しするのとは対照的です。



なぜ従来のAIでは難しかったのか?


実は、多くのAIは「成功した証明だけに報酬を与える」というルールで学習されています。これを「RLVR(強化学習による検証報酬)」といいます。

でもこのやり方、よく考えるとちょっと不自然です。

なぜなら、「深く考えて構造を見抜く」ような人間らしい推論は評価されず、「とにかくtacticを並べて偶然うまくいった」ほうが学習的に有利になってしまうからです。

たとえば、関数が線形かどうかを推測せずに「たぶん 2x + c かな?」と決め打ちで入れてみて、たまたま証明できたら勝ち、というような世界です。

研究チームはこの問題に気づき、あえて「考える専用のAIは、証明できるかどうかを気にせず自由に発想していい」という環境を整えています。



分担が生む創造性と堅実性のバランス


この「分担作戦」の強みは、戦略家AIがちょっと大胆なことを考えても、それを証明できなければProverが却下するという仕組みです。

つまり「発想力」と「検証力」のバランスが絶妙なんですね。

実際、実験で使われたAIモデルもそれぞれ異なります:

  • 発想担当(Reasoner):Gemini 2.5 ProやOpenAI GPTなど、柔軟な思考が得意なモデル

  • 証明担当(Prover):DeepSeek-Prover-v2のようなLean言語に特化したモデル

さらに工夫されているのは、証明の最終段階では再びReasonerを活用して、「証明済みの補題を活かしながら定理全体をまとめあげる」ような柔軟性まで加えたことです。



この技術はどこに向かうのか?


この研究は、「AIがIMO問題を解いた!」という派手なニュースだけではありません。、

  • 将来的に数学者が使う「AI助手」が生まれる可能性

  • ソフトウェアやハードウェアの形式検証に応用できること

  • 「ひらめき+厳密さ」という人間らしい思考のモデル化

といった、数学・工学・教育など広い分野への応用ができそうな点に意味がありそうです。

研究チームは補題データセットを公開し、他の研究者も使えるようにしています。「この補題、こう解いたらもっと簡単かも?」といった発見も期待されており、まさにAIと人間の協働の舞台が広がりつつあります。


 
 
bottom of page