训练中加入一条真实数据就可能阻止AI“胡言乱语”
创始人
2026-05-17 09:42:42
0

科技日报北京5月15日电 (记者张佳欣)当AI不断用自己生成的数据“喂养”自己,它就可能逐渐失去准确性,最终输出越来越多错误信息,甚至“胡言乱语”。英国伦敦国王学院领导的研究团队发现,只需在训练过程中加入哪怕一条来自真实世界的数据,就可能有效阻止这种被称为“模型崩塌”的现象。相关成果发表于新一期《物理评论快报》。

“模型崩塌”这一概念于2024年提出,指的是AI模型如果长期依赖自身生成的数据进行训练,模型性能会不断退化,最终输出失真内容。随着高质量人类文本数据逐渐接近枯竭,越来越多AI系统开始使用合成数据训练,这让模型崩塌风险进一步上升。

此次,团队通过分析一类被称为“指数族”的统计模型发现,在封闭循环训练(模型完全依赖自身生成数据学习)中,模型崩塌几乎不可避免。

研究显示,解决方法异常简单:只需在训练过程中加入一条来自外部世界的真实数据,哪怕其数量远远少于AI生成数据,也足以阻止模型性能持续退化,这种作用即使在机器生成数据数量无限增加时依然有效。

过去关于模型崩塌的研究多集中在大语言模型等复杂系统,由于其内部机制难以解释,错误来源也难以追踪,这也成为AI产生“幻觉”的原因之一。通过研究更简单的统计模型,科学家能够从数学上解释为何少量真实数据就能打破模型崩塌,从而为未来更复杂AI系统提供设计原则。

类似现象也存在于另一类名为“受限玻尔兹曼机”的机器学习模型中,表明这一规律可能具有更广泛适用性。下一步,他们计划将这一理论扩展到神经网络等更复杂的系统,以验证其在大语言模型中的实际效果。

相关内容

热门资讯

科创001 | “算力上天”赛... 深圳商报·读创客户端首席记者 王海荣 6月29日,持续两天的2026全球数字经济大会首届全球太空算力...
分拆可灵再造一个新快手?程一笑... 可灵的表现,将是衡量程一笑时代快手的重要指标。 2026年智谱暴涨的市值,让很多互联网巨头陷入了尴尬...
华为Mate 40 Pro早期... IT之家 6 月 29 日消息,B站 UP 主 @才羽モモイMomoi 昨晚(6 月 28 日)发布...
甘肃工程咨询集团科学技术协会成... 新甘肃客户端讯(新甘肃客户端记者 李杨 万及敏)6月26日,甘肃工程咨询集团股份有限公司科学技术协会...
市政协召开“聚焦智慧场景应用 ... 6月29日,市政协召开“聚焦智慧场景应用 推进数字营口建设”专题协商会。市政协主席李红莉参加会议并讲...
大数据与AI如何真正进入医疗现... “在这里,医疗AI已不是概念,我看见AI进入真实诊疗流程。”6月29日,在复旦大学附属中山医院举行的...
AI算力建设提速拉动上游需求,... 来源:界面新闻 近日,香港科技园公司与商汤科技签署合作备忘录,围绕AI算力基础设施搭建、AI产业生态...
杨燕青:AI正在改写经济学底层... 来源:第一财经 经济学界必须重新评估传统的内生增长模型、劳动力市场出清机制以及现有的社会财富契约。 ...
原创 众... 众泰汽车,又有了新动静。 近日,印尼BPKN主席穆罕默德·穆夫提·穆巴拉克博士带队商务考察团,专程到...
存储三巨头合谋制造“内存末日”... 6月29日消息,据报道,三星、SK海力士和美光6月25日在美国加利福尼亚联邦法院被提起集体诉讼,被控...