国际研究揭示医疗大语言模型应用困境 真实场景识别率远低于实验室水平

(问题)在医疗信息获取越来越便捷的背景下,全球多家医疗机构开始探索将大语言模型用于公众获取医疗知识和进行初步健康评估,希望在就医前为个人提供疾病管理与风险提示;然而,最新研究指出:这类工具在真实使用中未必能帮助公众做出更好的日常健康决策,甚至可能因信息缺失或误导性输出带来新的风险。 (原因)研究团队在多种健康情境下进行评估,结果显示“控制测试与真实使用”存在明显差距:在不引入真实用户、由系统直接提供完整条件时,大语言模型在疾病辨别上的平均准确率为94.9%,在行动方案选择上的正确率为56.3%。但当真实受试者使用同一模型进行交互时,病症识别率降至不足34.5%,正确行动选择低于44.2%,整体表现未超过对照组。研究人员继续对30种人机交互案例进行人工核查发现,两类问题相互叠加:一是使用者常提供不完整、含糊甚至不准确的个人信息,使模型判断基础发生偏移;二是模型在追问、归纳与建议环节可能生成误导性或错误内容,进而放大决策偏差。这表明,模型在标准化题目或“考试式评测”中的高分,并不等同于真实世界中的有效沟通与可靠指导。 (影响)该落差对公众健康安全与医疗服务秩序都有现实影响。对个人而言,错误的病症判断或不恰当的行动建议,可能导致延误就医、错误用药、过度担忧或盲目自信等后果;对医疗体系而言,若有关工具在缺乏边界与监管的情况下被广泛使用,可能带来不必要的就诊增加、重复检查,或在紧急情况下错过最佳处置时机。不容忽视的是,日常健康决策往往依赖年龄、既往病史、药物过敏、孕产状态、症状持续时间等细节,任何关键信息缺口都可能改变风险分层与处置路径;而公众在表达能力、医学素养与信息筛选上的差异,也会增加真实应用的不确定性。 (对策)研究人员认为,要让相关工具更安全地服务公众,关键是围绕“真实用户”重塑设计与治理框架:其一,优化交互机制,用结构化提问引导用户补全关键信息,减少“说不清、问不到”的沟通断点;其二,强化安全护栏与风险提示,明确红旗症状、紧急情形与必须就医的边界,避免将一般性建议表述为确定性诊断;其三,完善证据与来源标注,提高建议的可追溯性与可核验性,降低错误信息传播;其四,开展更贴近现实的评测与监管,把不同人群、不同表达方式、不同疾病复杂度纳入测试,避免用单一考试式指标替代真实世界有效性;其五,推动与医疗专业体系协同应用,将工具定位为健康教育与就医导航的辅助,而非替代临床诊疗的“虚拟医生”。 (前景)从趋势看,面向公众的健康信息服务仍有较大需求,技术应用也具备提升科普可及性、缓解信息不对称的潜力。但研究提示,决定工具价值的并非单纯“答题能力”,而是能否在复杂场景中实现可靠沟通、明确边界、降低风险。未来相关产品若要在公共健康领域落地,除技术迭代外还需同步推进制度设计,包括责任划分、数据与隐私保护、误用防范、持续监测与纠错机制等,确保创新与安全并重。

这项研究为快速推进的医疗数字化提供了重要提醒——技术创新不应停留在实验室指标的提升,更要经受复杂真实场景的检验。在健康这个关乎生命的领域,每一步技术应用的推进都需要扎实的临床验证作为支撑——这既是科学精神的要求——也是对生命尊严的守护。