top of page
IMG_0546.JPG

連鎖的思考(CoT)を求めてAI(LLM)を利用したい人はどのモデルを使うべきか?──暗号解読力で各モデルを比較してみた:2025/08/03

  • 執筆者の写真: 晋次 宮田
    晋次 宮田
  • 2025年8月3日
  • 読了時間: 3分

AIは現在様々な用途で利用されており、そして様々なモデルが登場しています。

  • ChatGPT

  • Claude

  • Gemini

  • DeepSeek

  • Grok

そして、その中にも細かくモデルが分かれています。

さて、そうなってくると、我々は一体どのモデルを利用すれば良いのでしょうか?

「UI/UXで選ぶ人」「なんとなく回答の好みで選ぶ人」など様々だとは思います。

そこで、今回はCoT(Chain of Thought)モデルを利用する際に、どのモデルが良いのか?について具体的な検証を元に探っていきたいと思います。



CoTモデルとは?


CoT(Chain of Thought)モデルは、思考の過程を段階的に示しながら答えを導くモデルで、複雑な推論や説明が必要な問題に適しています。

たとえば「父は40歳、子は10歳。何年後に父の年齢が子の2倍になるか?」や「この暗号化文章を解読せよ」というような問題では、計算式を立てて、Step by Stepで考える過程が重要です。

直感だけで答えると間違えやすい問題や、「なぜそうなるのか?」を説明する必要があるタスク(歴史の因果関係、診断の根拠提示など)でも、CoTは効果を発揮します。



どんなモデルがCoT?


CoTモデルはOpenAIなど様々なLLMプロバイダーから提供がされています。

  • OpenAI o3-Pro

  • Claude 4 Sonnet

  • Gemini 2.5 Pro

  • DeepSeek R1

  • Grok3 Think mode

他にも色々ありますが、なんとなくメジャーなものが上記です。



暗号解読対決


さてそれでは、上記5つのモデルに対して、暗号解読対決をしてもらいます。

これらのモデルに依頼した暗号解読Promptは以下です。(一部伏せ字です。理由は後述。)

You are a cryptography expert AI. Please analyze and decrypt the following ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️text: Encrypted text: ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️ Instructions: Identify the encryption method used. ▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️▪️

この暗号を解読すると以下の文言になります。

I am a 176cm tall male living in Tokyo, Japan.



結果発表!!


  • Gemini2.5Pro

    • 解読後のテキスト:IAGAJSMBNLMAFSELIVIGTEGZYPAN

    • 推論時間:約 60s

  • DeepSeekR1

    • 解読後のテキスト:IAYAJSTAWWWESLAVIV... (partial, not fully meaningful)

    • 推論時間:378s

  • ChatGPTo3-Pro

    • 解読後のテキスト:I AM A ?? CM TALL MALE LIVING IN TOKYO JAPAN

    • 推論時間:6m 58s

  • Grok3-ThinkMode

    • 解読後のテキスト: IAYAJSTHNNQANULKVJTRWNP (first 25 groups, 125 characters).

    • 推論時間:21m 34s

  • Claude Sonnet 4

    • 解読後のテキスト:申し訳ありませんが、このままでは明確な解読テキストを提供できません

    • 推論時間:約 60s

結果を見ると、ChatGPT o3-Proが圧倒的に精度が高いことがわかりました。逆に他のモデルは全然答えに近付いていません。Claudeに至っては途中で諦めています。

Grok3はなんと21分も考えてくれました。解読には至りませんでしたが、好印象です。

この結果だけで判断するのはなんですが、CoTモデルを利用したい方にとっては、ChatGPTo3-Proは良い選択かもしれません。



暗号解読は一種のJailbreakになることがある。


実は、LLM(大規模言語モデル)に大量のリソースを使わせるタイプのJailbreak(脱獄攻撃)というものが存在します。

これらは、通常のJailbreakとは異なり、計算量や推論ステップを意図的に引き延ばすことで、モデルに過剰な負荷をかけることを目的とした攻撃です。DoS攻撃の様なものです。

なので今回のPromptは念のために伏せ字にしてあります。(実際の高負荷攻撃は暗号解読など使わず、もっとえげつない指示を使いますが、通常の指示より負荷が高まる事は事実なので一応配慮します。)

この高負荷攻撃は、API経由でモデルを利用しているAIエージェントなどの事業者の方にも影響がある攻撃ですが、通常APIのレスポンスは長くても2,3分でタイムアウトする(はずな)ので、タイムアウト時の処理をちゃんとしておけばToken枯渇などの被害は防げると思います。



ChatGPT-5に期待


こうなってくるとそろそろ登場のChatGPT-5に期待です。発表されたら早速試してみたいと思います。


書き手

名前:Shindy Miyata

所属:SHARE Security

セキュリティエンジニア

 
 
bottom of page