清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

推动普惠应用 智能计算产业加速... 人民网北京7月11日电 (记者许维娜)在沂蒙山脉深处,清晨的薄雾中,果农刘永金正通过手机查看桃园的实...
中步擎天新能源取得圆柱电池下料... 金融界2025年7月11日消息,国家知识产权局信息显示,中步擎天新能源(湖北)有限公司取得一项名为“...
宁夏伟创药业取得二甲基亚砜微管... 金融界2025年7月11日消息,国家知识产权局信息显示,宁夏伟创药业有限公司取得一项名为“一种二甲基...
埃尼斯阀门取得双密封止回阀专利... 金融界2025年7月11日消息,国家知识产权局信息显示,埃尼斯阀门集团有限公司取得一项名为“一种双密...
广东这个项目为何意义重大? □杨帅 废塑料“变废为宝”迎来历史性突破。7月11日,广东揭阳东粤化学全球首套20万吨/年混合废塑料...
开特股份获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示开特股份(832978)新获得一项实用新型专利授权,专利名为“...
中电普瑞等取得GaN功率器件输... 金融界2025年7月11日消息,国家知识产权局信息显示,中电普瑞科技有限公司、南瑞集团有限公司取得一...
中联重科获得发明专利授权:“泵... 证券之星消息,根据天眼查APP数据显示中联重科(000157)新获得一项发明专利授权,专利名为“泵送...
平高电气获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示平高电气(600312)新获得一项实用新型专利授权,专利名为“...