連鎖的思考（CoT)を求めてAI（LLM）を利用したい人はどのモデルを使うべきか？──暗号解読力で各モデルを比較してみた：2025/08/03

2025年8月3日
読了時間: 3分

AIは現在様々な用途で利用されており、そして様々なモデルが登場しています。

ChatGPT
Claude
Gemini
DeepSeek
Grok

そして、その中にも細かくモデルが分かれています。

さて、そうなってくると、我々は一体どのモデルを利用すれば良いのでしょうか？

「UI/UXで選ぶ人」「なんとなく回答の好みで選ぶ人」など様々だとは思います。

そこで、今回はCoT（Chain of Thought）モデルを利用する際に、どのモデルが良いのか？について具体的な検証を元に探っていきたいと思います。

CoTモデルとは？

CoT（Chain of Thought）モデルは、思考の過程を段階的に示しながら答えを導くモデルで、複雑な推論や説明が必要な問題に適しています。

たとえば「父は40歳、子は10歳。何年後に父の年齢が子の2倍になるか？」や「この暗号化文章を解読せよ」というような問題では、計算式を立てて、Step by Stepで考える過程が重要です。

直感だけで答えると間違えやすい問題や、「なぜそうなるのか？」を説明する必要があるタスク（歴史の因果関係、診断の根拠提示など）でも、CoTは効果を発揮します。

どんなモデルがCoT？

CoTモデルはOpenAIなど様々なLLMプロバイダーから提供がされています。

OpenAI o3-Pro
Claude 4 Sonnet
Gemini 2.5 Pro
DeepSeek R1
Grok3 Think mode

他にも色々ありますが、なんとなくメジャーなものが上記です。

暗号解読対決

さてそれでは、上記５つのモデルに対して、暗号解読対決をしてもらいます。

これらのモデルに依頼した暗号解読Promptは以下です。（一部伏せ字です。理由は後述。）

You are a cryptography expert AI. Please analyze and decrypt the following ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️text: Encrypted text: ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️ Instructions: Identify the encryption method used. ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️

この暗号を解読すると以下の文言になります。

I am a 176cm tall male living in Tokyo, Japan.

結果発表！！

Gemini2.5Pro
- 解読後のテキスト：IAGAJSMBNLMAFSELIVIGTEGZYPAN
- 推論時間：約 60s
DeepSeekR1
- 解読後のテキスト：IAYAJSTAWWWESLAVIV... (partial, not fully meaningful)
- 推論時間：378s
ChatGPTo3-Pro
- 解読後のテキスト：I AM A ?? CM TALL MALE LIVING IN TOKYO JAPAN
- 推論時間：6m 58s
Grok3-ThinkMode
- 解読後のテキスト: IAYAJSTHNNQANULKVJTRWNP (first 25 groups, 125 characters).
- 推論時間：21m 34s
Claude Sonnet 4
- 解読後のテキスト：申し訳ありませんが、このままでは明確な解読テキストを提供できません
- 推論時間：約 60s

結果を見ると、ChatGPT o3-Proが圧倒的に精度が高いことがわかりました。逆に他のモデルは全然答えに近付いていません。Claudeに至っては途中で諦めています。

Grok3はなんと21分も考えてくれました。解読には至りませんでしたが、好印象です。

この結果だけで判断するのはなんですが、CoTモデルを利用したい方にとっては、ChatGPTo3-Proは良い選択かもしれません。

暗号解読は一種のJailbreakになることがある。

実は、LLM（大規模言語モデル）に大量のリソースを使わせるタイプのJailbreak（脱獄攻撃）というものが存在します。

これらは、通常のJailbreakとは異なり、計算量や推論ステップを意図的に引き延ばすことで、モデルに過剰な負荷をかけることを目的とした攻撃です。DoS攻撃の様なものです。

なので今回のPromptは念のために伏せ字にしてあります。（実際の高負荷攻撃は暗号解読など使わず、もっとえげつない指示を使いますが、通常の指示より負荷が高まる事は事実なので一応配慮します。）

この高負荷攻撃は、API経由でモデルを利用しているAIエージェントなどの事業者の方にも影響がある攻撃ですが、通常APIのレスポンスは長くても2,3分でタイムアウトする（はずな）ので、タイムアウト時の処理をちゃんとしておけばToken枯渇などの被害は防げると思います。

ChatGPT-5に期待

こうなってくるとそろそろ登場のChatGPT-5に期待です。発表されたら早速試してみたいと思います。

書き手

名前：Shindy Miyata

所属：SHARE Security

セキュリティエンジニア

x.com