大语言模型能够生成看似可信但实际不准确的回应,因此研究人员开发了不确定性量化方法来检验预测的可靠性。一种流行的方法是多次提交相同的提示,观察模型是否生成相同答案。
但这种方法测量的是自信度,即使最先进的大语言模型也可能自信地犯错。过度自信会误导用户对预测准确性的判断,在医疗或金融等高风险领域可能导致严重后果。
为解决这一不足,麻省理工学院研究人员引入了一种新方法,用于测量不同类型的不确定性,能更可靠地识别自信但错误的大语言模型回应。
他们的方法涉及将目标模型的回应与一组相似大语言模型的回应进行比较。研究发现,测量跨模型分歧比传统方法更准确地捕获了这种类型的不确定性。
研究团队将他们的方法与大语言模型自一致性测量相结合,创建了总不确定性指标,并在10项实际任务中进行评估,包括问答和数学推理。这一总不确定性指标持续优于其他测量方法,更擅长识别不可靠的预测。
麻省理工学院电气工程与计算机科学研究生、论文第一作者Kimia Hamidieh表示:"自一致性被广泛应用于不确定性量化的不同方法中,但如果你的不确定性估计仅依赖单一模型的结果,就不一定可信。我们回到起点理解当前方法的局限性,并以此为出发点设计了一种补充方法,能够在实证上改善结果。"
理解过度自信现象
许多流行的不确定性量化方法涉及要求模型提供置信度分数或测试其对相同提示回应的一致性。这些方法估计的是偶然不确定性,即模型对自身预测的内部信心程度。
然而,大语言模型在完全错误时也可能表现自信。研究表明,当模型过度自信时,认知不确定性(即是否使用正确模型的不确定性)可能是评估真实不确定性的更好方式。
麻省理工学院研究人员通过测量一组相似大语言模型间的分歧来估计认知不确定性。
Hamidieh解释道:"如果我多次向ChatGPT问同一个问题,它反复给出相同答案,这并不意味着答案必然正确。如果我转向Claude或Gemini问同样问题并得到不同答案,这会让我感受到认知不确定性。"
认知不确定性试图捕获目标模型与该任务理想模型的偏离程度。但由于无法构建理想模型,研究人员使用的替代品或近似方法往往依赖有缺陷的假设。
为改进不确定性量化,麻省理工学院研究人员需要更准确的认知不确定性估计方法。
集成方法
他们开发的方法涉及测量目标模型与具有相似规模和架构的小型模型集成间的分歧。研究发现,比较语义相似性(即回应含义的匹配程度)能提供更好的认知不确定性估计。
为获得最准确的估计,研究人员需要一组覆盖多样化回应、与目标模型不过于相似、且基于可信度加权的大语言模型。
Hamidieh说:"我们发现满足所有这些特性的最简单方法是选择不同公司训练的模型。我们尝试了许多更复杂的方法,但这种非常简单的方法最终效果最好。"
开发出估计认知不确定性的方法后,他们将其与测量偶然不确定性的标准方法结合。这一总不确定性指标提供了对模型置信水平是否可信的最准确反映。
Hamidieh表示:"不确定性既取决于给定提示的不确定性,也取决于我们的模型与最优模型的接近程度。这就是为什么将这两种不确定性指标相加能给我们最佳估计的原因。"
总不确定性指标能更有效地识别大语言模型出现幻觉的情况,因为认知不确定性可以标记偶然不确定性可能遗漏的自信错误输出。它还能让研究人员在训练期间强化大语言模型的自信正确答案,这可能提升性能。
研究团队使用多个大语言模型在10项常见任务上测试了总不确定性指标,包括问答、摘要、翻译和数学推理。他们的方法比单独使用任一测量方法更有效地识别了不可靠预测。
测量总不确定性通常比计算偶然不确定性需要更少查询,这能降低计算成本并节约能源。
实验还揭示,认知不确定性在具有唯一正确答案的任务(如事实性问答)上最有效,但在更开放性任务上可能表现不佳。
未来,研究人员可以调整技术以改善在开放性查询上的表现。他们也可能在此基础上探索其他形式的偶然不确定性。
这项工作部分由麻省理工学院-IBM沃森人工智能实验室资助。
Q&A
Q1:什么是大语言模型的过度自信问题?
A:大语言模型的过度自信是指模型在生成错误答案时仍表现出很高的置信度。即使是最先进的大语言模型也可能自信地犯错,这会误导用户对预测准确性的判断,在医疗或金融等高风险领域可能导致严重后果。
Q2:麻省理工学院的新方法如何识别不可靠的模型回应?
A:新方法通过测量跨模型分歧来估计认知不确定性,即将目标模型的回应与不同公司训练的相似大语言模型进行比较。然后将这种方法与传统的自一致性测量结合,形成总不确定性指标,能更准确地识别自信但错误的预测。
Q3:总不确定性指标在哪些任务上效果最好?
A:总不确定性指标在具有唯一正确答案的任务上最有效,如事实性问答、数学推理等。但在更开放性的任务上可能表现不佳。研究人员正在改进技术以提升在开放性查询上的表现。