训练中加入一条真实数据就可能阻止AI“胡言乱语”
创始人
2026-05-17 09:42:42
0

科技日报北京5月15日电 (记者张佳欣)当AI不断用自己生成的数据“喂养”自己,它就可能逐渐失去准确性,最终输出越来越多错误信息,甚至“胡言乱语”。英国伦敦国王学院领导的研究团队发现,只需在训练过程中加入哪怕一条来自真实世界的数据,就可能有效阻止这种被称为“模型崩塌”的现象。相关成果发表于新一期《物理评论快报》。

“模型崩塌”这一概念于2024年提出,指的是AI模型如果长期依赖自身生成的数据进行训练,模型性能会不断退化,最终输出失真内容。随着高质量人类文本数据逐渐接近枯竭,越来越多AI系统开始使用合成数据训练,这让模型崩塌风险进一步上升。

此次,团队通过分析一类被称为“指数族”的统计模型发现,在封闭循环训练(模型完全依赖自身生成数据学习)中,模型崩塌几乎不可避免。

研究显示,解决方法异常简单:只需在训练过程中加入一条来自外部世界的真实数据,哪怕其数量远远少于AI生成数据,也足以阻止模型性能持续退化,这种作用即使在机器生成数据数量无限增加时依然有效。

过去关于模型崩塌的研究多集中在大语言模型等复杂系统,由于其内部机制难以解释,错误来源也难以追踪,这也成为AI产生“幻觉”的原因之一。通过研究更简单的统计模型,科学家能够从数学上解释为何少量真实数据就能打破模型崩塌,从而为未来更复杂AI系统提供设计原则。

类似现象也存在于另一类名为“受限玻尔兹曼机”的机器学习模型中,表明这一规律可能具有更广泛适用性。下一步,他们计划将这一理论扩展到神经网络等更复杂的系统,以验证其在大语言模型中的实际效果。

相关内容

热门资讯

ChatGPT记忆大升级,十亿... 新智元报道 【新智元导读】奥特曼官宣ChatGPT记忆重大升级!全新Dreaming V3架构正式...
上海海关推出智能验核终端,离境... 近日,上海海关新一代离境退税海关智能验核终端投入运行,以“前端智能终端+验核平台协同支撑”一体化服务...
原创 2... 一、影像革命:当手机镜头遇上专业光学 OPPO Find X8 Ultra的影像系统堪称移动摄影的...
原创 为... 短视频平台上,关于中国航天员荣誉等级的讨论总能引来成千上万的评论和转发。细心的网友翻阅航天员大队公开...
达实智能召开生态伙伴大会,“ ... 2026年6月3日,“AI赋能 · 价值共生”2026达实生态合作伙伴大会在深圳南山区达实智能大厦成...
你要的token全拿走,胡彦斌... 文|许静 当歌手拿起AI写代码,“Vibe Coding” 的风已经吹进娱乐圈。就在今天,胡彦斌官宣...
原创 主... 在化学元素周期表中,主族元素的最高正化合价与其主族序数之间存在着密切的联系。根据元素周期律,主族元素...
原创 6... 全球每卖出10台高性能四足机器人,有6台以上印着“中国宇树”的标签。 2025年,它卖出超过5500...
原创 大... 最近两年,日本国内有个话题越吵越热,连电视台都反复拿出来讨论:那些本土辛辛苦苦培养出来的科研尖子,怎...
全球首个!“预制算力中心底座”... 据央视新闻报道,6月6日,全球首个预制算力中心底座在山东青岛正式启用。相较于传统算力中心节约施工周期...