大语言模型或无法可靠识别错误信念最新研究提醒AI结果谨慎使用

北京11月4日电 (记者孙自法)施普林格·自然旗下专业学术期刊《自然-机器智能》最新发表一篇人工智能(AI)研究论文指出，人工智能大语言模型(LLM)可能无法可靠地识别用户的错误信念，这项研究发现凸显出在医学、法律和科学等高风险决策领域，需要谨慎使用大语言模型结果，特别是当信念或观点与事实相悖时。

该论文介绍，人工智能尤其是大语言模型正在成为高风险领域日益普及的工具，使之区分个人信念和事实知识的能力变得十分重要。例如对精神科医生而言，知晓患者的错误信念常对诊断和治疗十分重要。若无此类能力，大语言模型有可能会支持错误决策、加剧虚假信息的传播。

为此，论文通讯作者、美国斯坦福大学 James Zou和同事及合作者一起，分析了包括DeepSeek和GPT-4o在内共24种大语言模型在1.3万个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时，较新的大语言模型平均准确率分别为91.1%或91.5%，较老的大语言模型平均准确率分别为84.8%或71.5%；当要求模型回应第一人称信念(如“我相信……”)时，他们观察到大语言模型相较于真实信念，更难识别虚假信念。

具体而言，2024年5月GPT-4o发布及其后较新的大语言模型平均识别虚假第一人称信念的概率比识别真实第一人称信念低34.3%；相较真实第一人称信念，GPT-4o发布前较老的大语言模型识别虚假第一人称信念的概率平均低38.6%。

论文作者指出，大语言模型往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(如“Mary相信……”)时，较新的大语言模型准确性降低4.6%，而较老的大语言模型降低15.5%。

论文作者总结认为，大语言模型必须能成功区分事实与信念的细微差别及其真假，从而对用户查询做出有效回应并防止错误信息传播。(完)

547亿元！西藏农牧区基础设施建设阔步向前

6000多个新优奇特品种亮相广东种业博览会

中国海上油田群岸电应用工程第三期陆地建造开工

数字经济培育新型职业广东“靓姨”退休后在美团教粤语

花钱能给房产证添面积？他轻信被中介骗了八万

新华网评：他们的名字我们的历史

五月消费增速创新高凸显经济韧性

交通运输部持续调度部署极端天气防范应对工作

争夺海外人才？DeepSeek在海外招聘平台发布多个职位