「答え」じゃなくて「考え方」を学ぶAI──医療を変える“Gazal-R1”の頭の中：2025/07/01

晋次宮田
2025年7月1日
読了時間: 5分

診察室で医師に言われた説明に「なるほど」と思ったこと、ありませんか？

「この症状と、あの検査結果がこうだから、こういう病気が疑われるんです」──

こういう丁寧な“考え方の筋道”があると、専門的な話でも納得しやすいものです。

でも、AIが病気を当てたときに、「Bが正解です」とだけ言われたら、なんだかちょっと不安になります。「どうしてそう思ったの？」と聞いてみたくなりますよね。

それができないと、AIがどんなに正確でも“信用”しづらいわけです。

今回紹介するのは、まさにその「考え方を説明できるAI」を目指した研究です。

ちょっと意外かもしれませんが、「答えより、理由を大事にするAI」こそが、次の医療の主役になるかもしれません。

Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training （Gazal-R1: パラメータ効率の高い2段階トレーニングによる最先端の医療推論の実現）

なぜ“正解するだけのAI”ではダメなのか？

AIは最近すごく賢くなってきました。医療分野でも、「症状を入力すると診断候補を出してくれる」といったツールがどんどん登場しています。

でも、ここにひとつ大きな問題があります。

AIが「なぜその答えに至ったのか」を説明できないと、医師が使うにはリスクが大きすぎるのです。 ****たとえば、正しい答えでも、理由がでたらめだったとしてら、それはただのまぐれ当たりということになります。

実際、過去の研究でも「AIの答えは正しくても、理由が滅茶苦茶」という例は数多くあります。

ということで、医療において重要なのは、説明できるAIということになります。 ****「こう考えました。だからこの答えにしました」と、ちゃんと推論の道筋を示せるAI。その発想を本気で実装しようとしたのが、今回のGazal-R1というモデルです。

ステップ・バイ・ステップで考えるように教える

このモデルの特徴は、考え方の型を先に叩き込むという訓練方法です。

まずは大量の医療問題をAIに見せます。でも、答えを覚えさせるだけではありません。

それぞれの問題に対して

「症状を確認」
「異常な検査値を見つける」
「重大な疾患を除外する」
「診断候補を絞り込む」

といった一つひとつの思考ステップを、短く整理した形で教えていきます。

このステップにはちゃんとルールがあり

最低8ステップ
1ステップは10語以内

という制約を付けます。つまり、深く、でも簡潔に考える訓練になっている感じです。

ちょうど、医学部の実習で「症例プレゼンテーション」を習うような感じです。（受けたこと無いですが）

「説明がうまいAI」はどうやって育てる？

では、その思考力をどう伸ばしたのか、という点がこの研究のもう一つのポイントです。

研究者が使ったのは、GRPO（Group Relative Policy Optimization）という特殊な訓練法です。

ざっくり言うと

「AIが自分でいろんな答えを出して、いちばんマシなやつを自分で選ぶ」というような自己学習法です。

ここでは単に正しいかどうかではなく

説明の構造がきちんとしているか？
出力が長すぎないか？
同じ言葉を繰り返していないか？

といったポイントも含めて複数の基準で評価されるようになっています。たとえば、正解していても「根拠が薄い」「長文でごまかしてる」ならマイナス評価。逆に、不正解でも「いい線まで推理していたら」学習にプラスがつく、といったように、「理由もセットで学ぶAI」にするための工夫がされています。

説明力が上がると、記憶力が下がる？──トレードオフ

研究では副作用も見つかりました。

このGazal-R1、たとえばUSMLE（医師国家試験）っぽい問題では非常に高い正答率を出しました。理由もちゃんと説明しながら、正しく診断できる。すごいです。

ところが、短くてシンプルな医学クイズ──たとえば「この病気に効く薬はどれ？」みたいな問題では、訓練前より正解率が下がってしまったんです。

なぜか？

理由を丁寧に書こうとするあまり

回答が長くなりすぎる
要点がブレてしまう
本質より“体裁”を整えてしまう

といった説明重視ゆえの過学習が起きてしまったのです。

これは、「説明力」と「即答力」は両立が難しい」ということを示しています。

本当に必要なのは「正しさ」より「誠実さ」かも

ここまで紹介してきたGazal-R1ですが、まだ限界もあります。

最新の医療知識はアップデートできない
本物の診察のような対話や文脈判断は未対応
完璧そうに見える説明も、時に“もっともらしいウソ”を含む

それでも、この研究はAIの医療応用にとって、大きな一歩であることは間違いありません。

なぜなら、

「正解を当てること」ではなく、「どうやってそこに至ったのかを説明する力」にこそ、AIの信頼性が宿ると示したからです。

今後はさらに、AIの考え方そのものを評価する技術が必要になってきます。

つまり、「Bです」と答えるAIではなく、「Aではない理由、Cがやや近い理由、でもBが最適な理由まで含めて話せるAI」が求められるのです。これは、人間の医師がやっていることと同じですね。

おわりに

AIはすでに、多くの知識を持っています。これから必要なのは、その知識をどう使うかを考えさせることにシフトしています。そしてそれは、今回の様な医療事例に限らず、教育、法務、行政、そして日常生活にまで広がっていくと思います。

「その答えをどうやって出したの？」

このシンプルな問いに、誠実に向き合えるAIが、安心して「使いたい」と思える存在になのかもしれません。