清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

机构:预计2025年全球AI手... 【环球网科技综合报道】6月9日消息,Canalys最新发布的报告显示,预计2025年全球AI手机渗透...
科技通报(线上wpk)外挂透明... 科技通报(线上wpk)外挂透明挂辅助app(透视)德州ai机器人(有挂实锤)-哔哩哔哩;值得一提的是...
指导大家!Wepoke必胜(w... 指导大家!Wepoke必胜(wEpOke)外挂透明挂辅助工具(透视)揭秘教程(有挂规律)-哔哩哔哩W...
2024教程(德扑之星内部)外... 1、2024教程(德扑之星内部)外挂透明挂辅助软件(透视)辅助透视(2024已更新)(哔哩哔哩)2、...
教程攻略(德扑之星有辅)外挂透... WePoke高级策略深度解析‌;教程攻略(德扑之星有辅)外挂透明挂辅助器安装(透视)发牌规律(新版有...
一分钟揭秘!Wepoke测试(... 一分钟揭秘!Wepoke测试(wePoKe)外挂透明挂辅助挂(透视)存在挂教程(讲解有挂)-哔哩哔哩...
透视透明挂(governoro... 透视透明挂(governorofpoker3辅助)外挂透明挂辅助挂(辅助挂)透视辅助(2025已更新...
透视有挂(微扑克辅助挂)外挂透... 透视有挂(微扑克辅助挂)外挂透明挂辅助APP(辅助挂)软件透明挂(有挂分享)-哔哩哔哩;最新版202...
我来教教你!aapoker实测... 1、我来教教你!aapoker实测(WEPOke)外挂透明挂辅助插件(透视)大神讲解(真的有挂)-哔...
一分钟揭秘(德扑线上创建房间)... 1、一分钟揭秘(德扑线上创建房间)外挂透明挂辅助脚本(透视)透视辅助(2020已更新)(哔哩哔哩)(...