首页 > 深度解读 > AI医疗“深水区”应战：生成式模子临床推理短板待补齐

AI医疗“深水区”应战：生成式模子临床推理短板待补齐

2026-04-14 16:06:44

美国麻省总医院MESH孵化器团队近日完成一项关于生成式人工智能临床推理能力的研究，相关成果发表于《JAMA Network Open》期刊。研究指出，尽管人工智能在医疗领域的应用不断深入，但在模拟真实诊疗场景时，其逻辑推理能力仍存在明显不足，目前尚无法独立承担临床诊疗任务。

该研究选取了21种主流大语言模型，包括ChatGPT、DeepSeek、Claude、Gemini和Grok等，通过29个真实临床病例进行多轮测试。测试过程中，研究人员逐步提供患者症状、实验室检查结果和影像资料，以还原医生动态诊疗过程。结果显示，在掌握完整信息的情况下，所有模型的最终诊断准确率均超过90%。然而，在“鉴别诊断”这一关键环节，超过80%的模型表现不佳，难以对多种潜在疾病进行系统性分析和筛选。

为评估模型的综合表现，研究团队设计了PrIME-LLM评价指标体系，涵盖诊断、检查决策和治疗方案制定等全流程。评测数据显示，各模型的综合得分在64%至78%之间，表明人工智能更擅长在信息完备时给出结论，但在信息不充分的情况下进行开放性逻辑推演的能力较弱。

研究团队特别指出，尽管新一代模型在处理复杂数据方面较旧版本有所提升，但大语言模型目前仍应定位为辅助工具。在缺乏专业监督的情况下直接应用于临床实践，可能带来潜在风险。这一发现为人工智能医疗技术的发展提供了重要参考，强调从简单结果匹配向复杂逻辑推理的转变，是医疗大模型实现专业化应用的关键挑战。

AI医疗“深水区”应战