AI医疗进入“深水区”:研讨指生成式模子尚难独立负担临床推理重担
2026-04-14 12:35:49
由美国麻省总医院MESH孵化器团队开展的一项针对生成式人工智能(AI)临床推理能力的最新研究显示,尽管AI在医疗领域的渗透日益加深,但在模拟真实诊疗的逻辑链条中仍存在显著短板。相关研究成果已发表于权威期刊《JAMA Network Open》,明确指出当前主流模型尚不具备独立承担临床诊疗任务的能力。
该研究选取了包括ChatGPT、DeepSeek、Claude、Gemini及Grok在内的21种大语言模型,通过29个已知临床病例进行多轮测试。实验通过逐步释放患者症状、实验室数据及影像结果,高度模拟了医生的动态诊疗过程。数据显示,在获得完整信息的前提下,所有模型给出正确最终诊断的准确率均超过90%。然而,在临床推理的核心环节——“鉴别诊断”中,超过80%的模型表现欠佳,无法对多种潜在疾病进行系统性分析与筛选。
为量化这一差异,研究团队引入了PrIME-LLM综合评价指标,覆盖从初期诊断、检查决策到治疗方案制定的全流程。评测结果显示,各模型综合得分在64%至78%之间,反映出AI更擅长在信息完备时“揭晓答案”,而非在信息不充分的情况下进行开放性逻辑推演。
尽管新一代模型在处理复杂数据资料方面较旧版本有明显进步,但研究团队强调,大语言模型目前仍定位为辅助工具,在缺乏专业监督的情况下直接用于临床实践仍具风险。这一发现为AI医疗的未来演进提供了理性坐标:从简单的“结果拟合”向复杂的“逻辑推理”跨越,将是医疗大模型迈向专业化应用的关键门槛。
相关阅读
-
华为研发火力全开:年投1923亿超三星,11万科研人筑牢手艺壁垒深度解读 2026-04-14 12:29:13
-
半价速囤:臻和亦康牙线棒9.2元150支科技前沿 2026-04-14 12:27:41
-
OpenAI收购Hiro Finance:聚焦人材吸纳,金融科技范畴再添新结构深度解读 2026-04-14 12:23:15
-
罗永浩吐槽120W是充电器商标:这么地痞是怎样注册成功的科技前沿 2026-04-14 12:21:02
-
深圳启用全球首个商用效劳机械人体验中间,显现“人机共生”新图景深度解读 2026-04-14 12:17:10
-
比亚迪回应坪山园区平面车库火情:不触及成品车 火势已扑灭 无人员伤亡科技前沿 2026-04-14 12:15:38
-
光荣回应与字节跳动“豆包手机”协作风闻:内部确认音讯不属实资讯百科 2026-04-14 12:13:30
-
吉祥新一代i-HEV混动手艺表态:48.41%热效率 百千米油耗仅2.22L深度解读 2026-04-14 12:10:27
-
1.6MB的《老友记》心情包被用246173次 吃掉377GB,直接干崩Linux系统科技前沿 2026-04-14 12:09:49
-
苹果智能眼镜蓄势待发,设计生态双加持或引领行业新潮水资讯百科 2026-04-14 12:08:03