世界は今もDeepSeek-R1の幻影を追っている:推論型AIの進化と群雄割拠の現在地:2025/05/04
- 晋次 宮田
- 2025年5月4日
- 読了時間: 6分

はじめに:あの"DeepSeek-R1ショック"から100日
2025年1月、AI界をざわつかせたニュースがありました。そう、"DeepSeek-R1"の登場です。DeepSeekに関しては
破格のコスト(10億程度)で開発した!(通常モデルの開発には数百億円の投資が必要)
高性能のGPUが必要であるとされる中、旧型のGPUでモデルを構築した!
など(ホントかどうかはさておき)センセーショナルに発表され、AI関連企業の株価が暴落するといった自体まで発生しました。
そんな中、DeepSeekの登場によって一躍トレンドワードとなったのが“Chain-of-Thought(CoT)”というワードです。CoTモデルは、従来のAIと違って、ただ答えを出すだけでなく、まるで人間のように「筋道を立てて考える」ことができる、という点が特徴です。(実際には人間の様に思考しているわけではないですが。)
この“Chain-of-Thought(CoT)”というアプローチは一躍トレンドになり、GPT-4をはじめとした既存のモデルと比較されながら、各方面で論争や模倣が巻き起こりました。
そして今、100日が経過した今、DeepSeek-R1は「思考できるAI」の象徴として記憶されながらも、その座を巡って、さまざまなモデルが登場し始めています。
文献紹介:『100 Days After DeepSeek-R1』
本記事は、2025年5月に公開された論文
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models
[Submitted on 1 May 2025]
日本語訳:DeepSeek-R1登場から100日後——再現研究と“考えるAI”のこれからを軸に構成しています。
この論文では、DeepSeek-R1が登場してからの100日間に、世界中の研究者たちがどのようにそのAIをまねして作ろうとしたか、またどう改良しようとしたかを調べて、まとめています。
例えば、「どのようなデータを使って学ばせたのか」「他のAIでも同じような力を出せるのか」などが整理されています。
この内容は、これからAIに“考える力”をどう持たせるか、どう安全に使うか、そしてどうやって社会に役立てていくかを考えるうえで、大きなヒントになります。
DeepSeek-R1はオープンソース? でもコピペでは再現で
きない
DeepSeek-R1の公開時、「これはオープンソースだから複製が容易だ」という声が一部で上がりました。確かに、モデルウェイトや一部のコードは公開されており、誰でも触れるようになっています。
ですが、実態としては、学習データ、報酬設計、訓練手順といった本質的なノウハウは未公開です。つまり、レシピの「材料」は見えていても、「調理法」までは教えてくれていない、という状況です。
そのため、世界中の研究者が自力で「調理法」を推測しながら、DeepSeek-R1の再現を試みることになります。これが、2025年春のCoT戦国時代の幕開けです。
「筋道を立てて考える」AIは、こうして育てる
DeepSeek-R1を模倣する試みは主に2つの方法に分類されます。
1.お手本を見せて学ばせる方法(教師ありファインチューニング)
1つ目は、「良いお手本をたくさん見せて覚えさせる」やり方です。
たとえば、数学の問題やプログラミングの課題をDeepSeek-R1に解かせて、その“考え方の流れ”を記録します。これを新しいAIに見せて、「このように考えるんだよ」と教えることで、似たような力を身につけさせるのです。
この方法で作られた代表的なモデルには、Light-R1 や OpenR1、Synthetic-1 などがあります。どれもDeepSeek-R1の考え方を参考にしています。
2.ごほうびで教える方法(強化学習)
もう1つは、「自分で考えて、正解すればごほうびをあげる」やり方です。
これは強化学習と呼ばれるもので、AIが答えを出したときに、それが正しければ +1点、間違っていれば 0点というように、自動で点数をつけます。点数をたくさんもらえるように、AIは考え方をどんどん工夫していくわけです。
このときに使われる特別な仕組みとして「GRPO(ジー・アール・ピー・オー)」というルールもあり、DeepSeek社が開発したこの方法で、AIはより安定して成長できるようになっています。
CoTモデルをさらに強くするために
最近ではさらに新しい工夫も注目されています。
たとえば、こんな方法です
途中の考え方を評価する
これまでは「答えが合っていればOK」という教え方が多かったのですが、「どんな考え方でそこにたどり着いたか」もチェックすることで、もっと深い学びができるようにする取り組みです。
人の好みを学ぶ
どちらの答えの方がわかりやすいか、丁寧かなど、答えの“好ましさ”を学習する方法も出てきています。人が「こっちの方がいいね」と思う方を選ばせて、AIに学ばせる仕組みです。
いろんな形式に対応する
テキストだけでなく、画像・音声・表など、さまざまな情報を理解しながら考えられるようにする研究も進んでいます。たとえば、図を見て理由を説明できるAIなどがその例です。
安全性を高める
よく考えるAIだからこそ、間違った方向に使われたときのリスクも大きくなります。たとえば「わざと危険な答えを出させようとする攻撃」にどう対応するか、といった課題です。
つまり、CoTモデルは「よく考える力」を持つ一方で、その考え方そのものをどう教えるか、どう守るかが、これからの大きなテーマになってきているのです。
DeepSeek-R1の再現から生まれた「共通の作り方」
論文『100 Days After DeepSeek-R1』では、世界中の研究者たちがDeepSeek-R1のようなAIをまねして作ろうとした過程を調べて、「どんなやり方がうまくいったか」をまとめています。
学習データは多ければいいというわけではない
たった1,000件の問題でも、よく選ばれた内容なら十分に効果があることがわかりました
ごほうびのルールはシンプルでよい
「正解なら1点、間違いなら0点」といったわかりやすい評価のしかただけでも、AIはしっかりと考える力を育てられると確認されました。
GRPOという学習の工夫は今も現役
DeepSeekが使ったGRPOという方法は、今でも効果が高く、多くの研究で使われています。さらに、それを改良した新しい方法(DAPOやDr. GRPOなど)も登場しています。
こうした取り組みの積み重ねによって、「思考できるAIをどう作ればいいか」という共通の知識や手順(技術カタログ)が生まれつつあるのです。これは、今後のAI開発にとって大きな財産になっていくでしょう。
CoTモデルは群雄割拠:いま最強は誰か?
2025年5月現在、「CoTモデル最強」はもはや一強ではありません。DeepSeek-R1は依然としてトップクラスですが、他にも強力な競合が次々登場しています。
モデル名 | 特徴 |
DeepSeek-R1 | 明示的CoT訓練。GRPO採用。数学・論理に最強クラス |
Light-R1 | 高難易度SFT + GRPO。R1互換を高精度で再現 |
GPT-4o | CoT明示訓練は非公開だが、自然な思考生成能力。マルチモーダルにも対応 |
Claude 3 | 思考の透明性が高く、実用文脈に強い |
EXAONE Deep | Preference + DPO強化型の新興勢力 |
用途・性能・安全性・拡張性のどの軸で最強を定義するかで評価は変わりますが、様々なモデルが出現していますね。
おわりに
DeepSeek-R1は、「まるで考えているかのように」答えまでの筋道を示すAIとして話題になりました。とはいえ、実際には思考しているわけではありませんが、人が理解しやすい説明の形を出せる点が画期的だなぁと感じました。
結果的にこの仕組みは、多くの研究者に影響を与え、類似モデルの開発や再現が一気に進んだと思いますので、非常に大きな出来事だったのだなぁと改めて思いますね。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア



