清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

可改善视力,视黄醇脂肪酸酯实现... 新京报讯(记者周怀宗)近日,中国农业科学院油料所油料品质化学与加工利用创新团队构建了一种新型pH响应...
常州财政“三全”驱动构建政府采... 近年来,我市强化“数智化+政府采购”深度融合,创新构建“全流程电子化、全链条智慧监管、全要素数据分析...
南京拓控取得转向架升降推送机构... 金融界2025年6月21日消息,国家知识产权局信息显示,南京拓控信息科技股份有限公司取得一项名为“一...
威马农机“山地收割双雄”,奔赴... 随着西南地区早稻陆续进入灌浆结实期 一年一度的夏收战役即将打响 近日 在威马农机股份有限公司 小型收...
“DK英语”系列畅销百万 适应... 北京6月21日电 (记者 应妮)中译出版社“DK英语”系列畅销百万里程庆典暨新版《DK英语语法全书》...
第九届 “大匠至心”非遗沙龙举... 潮新闻客户端 通讯员 相丽眉 匠心聚智,薪火相传。 “大匠至心”非遗传承发展杭州沙龙创办自2016年...
本地化新品挺进中东市场,中联重... 近日,中联重科ZR255R旋挖钻机在阿联酋顺利完成批量交付,标志着公司R系列旋挖钻机正式挺进中东市场...
GPT-5夏季将至!OpenA... 近期,OpenAI的创始人山姆·奥特曼在一档热门播客节目中透露了一个令人振奋的消息:备受瞩目的人工智...
靠博客入职OpenAI,这位大... 近日,AI界传出了一则引人瞩目的消息:一名仅凭一篇博客文章就加入OpenAI的研究员,可能正在使用其...
AI陪伴“擦边”争议背后 行业... 21世纪经济报道记者肖潇 北京报道 6月19日,AI陪伴软件“筑梦岛”因低俗擦边内容,被上海网信办约...