识别过度自信大语言模型的更优方法
创始人
2026-03-19 21:55:47
0

大语言模型能够生成看似可信但实际不准确的回应,因此研究人员开发了不确定性量化方法来检验预测的可靠性。一种流行的方法是多次提交相同的提示,观察模型是否生成相同答案。

但这种方法测量的是自信度,即使最先进的大语言模型也可能自信地犯错。过度自信会误导用户对预测准确性的判断,在医疗或金融等高风险领域可能导致严重后果。

为解决这一不足,麻省理工学院研究人员引入了一种新方法,用于测量不同类型的不确定性,能更可靠地识别自信但错误的大语言模型回应。

他们的方法涉及将目标模型的回应与一组相似大语言模型的回应进行比较。研究发现,测量跨模型分歧比传统方法更准确地捕获了这种类型的不确定性。

研究团队将他们的方法与大语言模型自一致性测量相结合,创建了总不确定性指标,并在10项实际任务中进行评估,包括问答和数学推理。这一总不确定性指标持续优于其他测量方法,更擅长识别不可靠的预测。

麻省理工学院电气工程与计算机科学研究生、论文第一作者Kimia Hamidieh表示:"自一致性被广泛应用于不确定性量化的不同方法中,但如果你的不确定性估计仅依赖单一模型的结果,就不一定可信。我们回到起点理解当前方法的局限性,并以此为出发点设计了一种补充方法,能够在实证上改善结果。"

理解过度自信现象

许多流行的不确定性量化方法涉及要求模型提供置信度分数或测试其对相同提示回应的一致性。这些方法估计的是偶然不确定性,即模型对自身预测的内部信心程度。

然而,大语言模型在完全错误时也可能表现自信。研究表明,当模型过度自信时,认知不确定性(即是否使用正确模型的不确定性)可能是评估真实不确定性的更好方式。

麻省理工学院研究人员通过测量一组相似大语言模型间的分歧来估计认知不确定性。

Hamidieh解释道:"如果我多次向ChatGPT问同一个问题,它反复给出相同答案,这并不意味着答案必然正确。如果我转向Claude或Gemini问同样问题并得到不同答案,这会让我感受到认知不确定性。"

认知不确定性试图捕获目标模型与该任务理想模型的偏离程度。但由于无法构建理想模型,研究人员使用的替代品或近似方法往往依赖有缺陷的假设。

为改进不确定性量化,麻省理工学院研究人员需要更准确的认知不确定性估计方法。

集成方法

他们开发的方法涉及测量目标模型与具有相似规模和架构的小型模型集成间的分歧。研究发现,比较语义相似性(即回应含义的匹配程度)能提供更好的认知不确定性估计。

为获得最准确的估计,研究人员需要一组覆盖多样化回应、与目标模型不过于相似、且基于可信度加权的大语言模型。

Hamidieh说:"我们发现满足所有这些特性的最简单方法是选择不同公司训练的模型。我们尝试了许多更复杂的方法,但这种非常简单的方法最终效果最好。"

开发出估计认知不确定性的方法后,他们将其与测量偶然不确定性的标准方法结合。这一总不确定性指标提供了对模型置信水平是否可信的最准确反映。

Hamidieh表示:"不确定性既取决于给定提示的不确定性,也取决于我们的模型与最优模型的接近程度。这就是为什么将这两种不确定性指标相加能给我们最佳估计的原因。"

总不确定性指标能更有效地识别大语言模型出现幻觉的情况,因为认知不确定性可以标记偶然不确定性可能遗漏的自信错误输出。它还能让研究人员在训练期间强化大语言模型的自信正确答案,这可能提升性能。

研究团队使用多个大语言模型在10项常见任务上测试了总不确定性指标,包括问答、摘要、翻译和数学推理。他们的方法比单独使用任一测量方法更有效地识别了不可靠预测。

测量总不确定性通常比计算偶然不确定性需要更少查询,这能降低计算成本并节约能源。

实验还揭示,认知不确定性在具有唯一正确答案的任务(如事实性问答)上最有效,但在更开放性任务上可能表现不佳。

未来,研究人员可以调整技术以改善在开放性查询上的表现。他们也可能在此基础上探索其他形式的偶然不确定性。

这项工作部分由麻省理工学院-IBM沃森人工智能实验室资助。

Q&A

Q1:什么是大语言模型的过度自信问题?

A:大语言模型的过度自信是指模型在生成错误答案时仍表现出很高的置信度。即使是最先进的大语言模型也可能自信地犯错,这会误导用户对预测准确性的判断,在医疗或金融等高风险领域可能导致严重后果。

Q2:麻省理工学院的新方法如何识别不可靠的模型回应?

A:新方法通过测量跨模型分歧来估计认知不确定性,即将目标模型的回应与不同公司训练的相似大语言模型进行比较。然后将这种方法与传统的自一致性测量结合,形成总不确定性指标,能更准确地识别自信但错误的预测。

Q3:总不确定性指标在哪些任务上效果最好?

A:总不确定性指标在具有唯一正确答案的任务上最有效,如事实性问答、数学推理等。但在更开放性的任务上可能表现不佳。研究人员正在改进技术以提升在开放性查询上的表现。

相关内容

热门资讯

科创001 | “算力上天”赛... 深圳商报·读创客户端首席记者 王海荣 6月29日,持续两天的2026全球数字经济大会首届全球太空算力...
分拆可灵再造一个新快手?程一笑... 可灵的表现,将是衡量程一笑时代快手的重要指标。 2026年智谱暴涨的市值,让很多互联网巨头陷入了尴尬...
华为Mate 40 Pro早期... IT之家 6 月 29 日消息,B站 UP 主 @才羽モモイMomoi 昨晚(6 月 28 日)发布...
甘肃工程咨询集团科学技术协会成... 新甘肃客户端讯(新甘肃客户端记者 李杨 万及敏)6月26日,甘肃工程咨询集团股份有限公司科学技术协会...
市政协召开“聚焦智慧场景应用 ... 6月29日,市政协召开“聚焦智慧场景应用 推进数字营口建设”专题协商会。市政协主席李红莉参加会议并讲...
大数据与AI如何真正进入医疗现... “在这里,医疗AI已不是概念,我看见AI进入真实诊疗流程。”6月29日,在复旦大学附属中山医院举行的...
AI算力建设提速拉动上游需求,... 来源:界面新闻 近日,香港科技园公司与商汤科技签署合作备忘录,围绕AI算力基础设施搭建、AI产业生态...
杨燕青:AI正在改写经济学底层... 来源:第一财经 经济学界必须重新评估传统的内生增长模型、劳动力市场出清机制以及现有的社会财富契约。 ...
原创 众... 众泰汽车,又有了新动静。 近日,印尼BPKN主席穆罕默德·穆夫提·穆巴拉克博士带队商务考察团,专程到...
存储三巨头合谋制造“内存末日”... 6月29日消息,据报道,三星、SK海力士和美光6月25日在美国加利福尼亚联邦法院被提起集体诉讼,被控...