清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

面对荒诞的AI动画 如何为孩子... 近年来,AI技术在影视领域得到广泛运用,极大地丰富了群众的文化生活。然而记者近日发现,一些在青少年中...
马斯克:明年年底将开始向公众销... 特斯拉CEO马斯克在达沃斯表示,到明年年底,将开始向公众销售人形机器人。 1月19日,据环球网科技援...
交出判断权,陷入“外包自主”陷... 来源:滚动播报 (来源:千龙网) 《算法焦虑:数字时代的恐惧》安东尼·埃利奥特 著 徐法寅 译 格致...
说说闺蜜机哪个牌子好用,特色功... 在当今科技飞速发展的时代,闺蜜机市场逐渐兴起,成为众多消费者关注的焦点。对于新手而言,选择一款适合自...
苹果最烧钱的 AI 部门,交给... 去年秋天,苹果总部那座标志性的飞船大楼里,软件工程高级副总裁克雷格·费德里吉(Craig Feder...
南水北调“天河”大模型正式发布 本报北京1月22日电 (记者王浩)记者从中国南水北调集团有限公司获悉:近日,南水北调“天河”大模型正...
苹果强势回暖带动供应链红利,瑞... 苹果在中国市场的强势复苏,正为产业链注入强劲动力。Counterpoint Research数据显示...
宁夏碳谷能源取得石墨化炉用装料... 国家知识产权局信息显示,宁夏碳谷能源科技股份有限公司取得一项名为“一种石墨化炉用装料板”的专利,授权...
电牌照明取得弧形线条灯专利,提... 国家知识产权局信息显示,电牌(广东)照明有限公司取得一项名为“一种弧形线条灯”的专利,授权公告号CN...
南京:开启“十五五” 科创“打... 这是坐落于江苏南京的紫金山实验室展厅入口。图据新华社客户端 南钢集团JIT+C2M智能工厂。图据新...