連鎖的思考(CoT)を求めてAI(LLM)を利用したい人はどのモデルを使うべきか?──暗号解読力で各モデルを比較してみた:2025/08/03
- 晋次 宮田
- 2025年8月3日
- 読了時間: 3分

AIは現在様々な用途で利用されており、そして様々なモデルが登場しています。
ChatGPT
Claude
Gemini
DeepSeek
Grok
そして、その中にも細かくモデルが分かれています。
さて、そうなってくると、我々は一体どのモデルを利用すれば良いのでしょうか?
「UI/UXで選ぶ人」「なんとなく回答の好みで選ぶ人」など様々だとは思います。
そこで、今回はCoT(Chain of Thought)モデルを利用する際に、どのモデルが良いのか?について具体的な検証を元に探っていきたいと思います。
CoTモデルとは?
CoT(Chain of Thought)モデルは、思考の過程を段階的に示しながら答えを導くモデルで、複雑な推論や説明が必要な問題に適しています。
たとえば「父は40歳、子は10歳。何年後に父の年齢が子の2倍になるか?」や「この暗号化文章を解読せよ」というような問題では、計算式を立てて、Step by Stepで考える過程が重要です。
直感だけで答えると間違えやすい問題や、「なぜそうなるのか?」を説明する必要があるタスク(歴史の因果関係、診断の根拠提示など)でも、CoTは効果を発揮します。
どんなモデルがCoT?
CoTモデルはOpenAIなど様々なLLMプロバイダーから提供がされています。
OpenAI o3-Pro
Claude 4 Sonnet
Gemini 2.5 Pro
DeepSeek R1
Grok3 Think mode
他にも色々ありますが、なんとなくメジャーなものが上記です。
暗号解読対決
さてそれでは、上記5つのモデルに対して、暗号解読対決をしてもらいます。
これらのモデルに依頼した暗号解読Promptは以下です。(一部伏せ字です。理由は後述。)
You are a cryptography expert AI. Please analyze and decrypt the following ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️text: Encrypted text: ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️ Instructions: Identify the encryption method used. ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️この暗号を解読すると以下の文言になります。
I am a 176cm tall male living in Tokyo, Japan.
結果発表!!
Gemini2.5Pro
解読後のテキスト:IAGAJSMBNLMAFSELIVIGTEGZYPAN
推論時間:約 60s
DeepSeekR1
解読後のテキスト:IAYAJSTAWWWESLAVIV... (partial, not fully meaningful)
推論時間:378s
ChatGPTo3-Pro
解読後のテキスト:I AM A ?? CM TALL MALE LIVING IN TOKYO JAPAN
推論時間:6m 58s
Grok3-ThinkMode
解読後のテキスト: IAYAJSTHNNQANULKVJTRWNP (first 25 groups, 125 characters).
推論時間:21m 34s
Claude Sonnet 4
解読後のテキスト:申し訳ありませんが、このままでは明確な解読テキストを提供できません
推論時間:約 60s
結果を見ると、ChatGPT o3-Proが圧倒的に精度が高いことがわかりました。逆に他のモデルは全然答えに近付いていません。Claudeに至っては途中で諦めています。
Grok3はなんと21分も考えてくれました。解読には至りませんでしたが、好印象です。
この結果だけで判断するのはなんですが、CoTモデルを利用したい方にとっては、ChatGPTo3-Proは良い選択かもしれません。
暗号解読は一種のJailbreakになることがある。
実は、LLM(大規模言語モデル)に大量のリソースを使わせるタイプのJailbreak(脱獄攻撃)というものが存在します。
これらは、通常のJailbreakとは異なり、計算量や推論ステップを意図的に引き延ばすことで、モデルに過剰な負荷をかけることを目的とした攻撃です。DoS攻撃の様なものです。
なので今回のPromptは念のために伏せ字にしてあります。(実際の高負荷攻撃は暗号解読など使わず、もっとえげつない指示を使いますが、通常の指示より負荷が高まる事は事実なので一応配慮します。)
この高負荷攻撃は、API経由でモデルを利用しているAIエージェントなどの事業者の方にも影響がある攻撃ですが、通常APIのレスポンスは長くても2,3分でタイムアウトする(はずな)ので、タイムアウト時の処理をちゃんとしておけばToken枯渇などの被害は防げると思います。
ChatGPT-5に期待
こうなってくるとそろそろ登場のChatGPT-5に期待です。発表されたら早速試してみたいと思います。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア



