「AIに診察される日」は近いのか?——医療AIが問診力を学ぶ:2025/09/04
- 晋次 宮田
- 9月4日
- 読了時間: 3分

「この症状、とりあえずChatGPTに相談してみようかな?」そんなふうに思ったこと、ありませんか?
最近では、医療系のチャットボットやAI問診サービスも誕生し、AIに医療相談をするシーンが身近になってきました。風邪の相談、薬の確認、ちょっとした不安……AIに尋ねれば即答してくれるので便利です。
でも、AIの答えが正しそうでも、なんだか頼りないと感じたことはないでしょうか?
AIと人間の医師との間には、まだ「壁」がある気がしますよね。
今回紹介する研究は、その壁を低くすることに挑戦した研究です。
現場で鍛える
医療AIは、医師免許試験のような問題に答えるといった、基本的には試験勉強のように訓練されています。
でも実際の診療は、(素人でも想像がつきますが)試験とは当然違う状況だと思います。
患者は、「ちょっと頭が痛いんです」と言うけれど、その背後には不安・背景・生活環境が混じっているはずです。医師は限られた時間の中で、必要な情報を引き出し、気持ちに寄り添いながら、間違いのない判断をしなければなりません。
では、AIでもこれができるようにするにはどうすればよいか?
仮想の患者と、仮想の外来診察
研究チームがま導入したのが、「動的バリファイア(Dynamic Verifier)」という仕組みです。
ここでは、AIが仮想の患者と何度もやり取りを重ね、やがてよりよい診察ができるように学んでいきます。
ポイントは以下の2つです。
1つ目は、Patient Simulator(患者シミュレーター)。
これは、性格や社会背景までを再現できる仮想患者です。たとえば「気が弱くて質問できないタイプ」「高学歴で説明に厳しいタイプ」「お金がなくて高価な治療を拒むタイプ」など、人間らしい多様さを持っています。
2つ目は、Clinical Rubrics Generator(臨床ルーブリック生成器)。
これは診察内容をチェックする自動採点官です。診断の正しさだけでなく、「問診の順番は適切だったか」「患者の不安に気づいたか」「危険な治療をしていないか」など、多角的に点数をつけてくれます。
そのフィードバックを受けながら、より人間らしい診察ができるように進化していきます。
驚異の評価スコア
では、このモデルの出来はどうだったのでしょうか?
答えは――現時点で最も厳しい医療ベンチマーク「HealthBench Hard」で、GPT-5以外では唯一32点を突破という結果だったそうです。
このモデルはGPT-4やClaude3などの大型モデルよりもかなり軽量な32Bモデルです。
それでいて「共感力」「診察の正確性」「説明の明瞭さ」などの項目で軒並み1位とのこと。
さらに、中国の実際の臨床ケース57件でも比較され、「診断」「治療提案」「リスク配慮」「説明の丁寧さ」のすべてで従来モデルよりも優れていると医師たちが評価しています。
医療AIの第二章(かも)
今研究は「AIが人間の医師らしく考える力をどう学ぶか?」という、結構難しい「人間ならでは」と考えていたスキルに挑戦しています。
幻覚(誤回答)や安定性の課題など、もちろん、まだ課題もあるでしょう。それでも「AIが我々のの主治医になる未来」は、少しずつ近づいてきているのかもしれません。
書き手
名前:Shindy Miyata
所属:SHARE Security
セキュリティエンジニア


