清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

科技驱动物业服务升级!碧桂园服... 在人工智能浪潮的推动下,智能机器人正从实验室全面走进日常生活。据碧桂园服务近期披露,截至今年10月2...
华为发布鸿蒙6,支持与苹果设备... 10月22日,华为发布新一代鸿蒙操作系统HarmonyOS 6(鸿蒙6)。华为常务董事、终端BG董事...
新施诺:布局12英寸晶圆厂物流... 来源:证券时报e公司 晶圆制造厂内,运行着庞大的自动化物料搬运系统(AMHS),以满足高洁净度、高稳...
“千年一遇”的彗星来了,如何观... 近期,C/2025 A6(Lemmon)彗星(以下简称莱蒙彗星)成为全球瞩目的对象。这是一颗“千年一...
医疗科技援疆结硕果 浙阿共谱心... 央广网宁波10月22日消息(记者俞烨 通讯员庞赟)10月20日,新疆阿克苏地区第一人民医院内暖意融融...
新一代鸿蒙系统正式发布 10月22日,华为正式发布新一代鸿蒙操作系统鸿蒙6,并面向首批90多款机型开启规模公测。据悉,鸿蒙与...
宁波人形机器人专项政策启动实施 关于开展2025年度人形机器人 产业政策申报的通知 各区(县、市)经信局,各管委会经信部门: 为加快...
第二条空客A320系列飞机总装... 本文转自【央视新闻客户端】; 记者今天从空客了解到,空客天津总装厂第二条A320系列飞机总装线今天正...
AI“重编程”癌症干细胞促其自... 美国加州大学圣迭戈分校研究团队开发了一种摧毁癌症干细胞的新方法。该方法在结肠癌的研究中取得了突破,他...
CICC科普栏目|利用Chat... 在过去的几个月里,发布的人工智能工具数量日益增多。ChatGPT就是这样一款功能强大的工具,它是一种...