清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

阿里合伙人委员会点名批评钉钉团... 6月10日,阿里巴巴合伙人委员会在内网发布帖文《有情有义有成长,才是阿里文化》,对连日来《置身钉内》...
2026年二手iPhone 1... 一、为什么iPhone 13至今仍是二手市场宠儿? 在2026年的智能手机市场,iPhone 13...
我国今年要打造超百个人形机器人... 中国青年报客户端讯(中青报·中青网记者 贾骥业)记者从工业和信息化部获悉,近日,该部与国务院国资委联...
2026年“小小科学家”校园巡... 6月10日,由哈尔滨市科协、市教育局共同主办的2026年“小小科学家”校园巡回报告会走进哈尔滨新区第...
重度听损哪款品牌好?国产平价助... 对于重度听损人群而言,听力障碍不仅是听不见声音,更是切断了与生活、社交、家人的情感联结。日常沟通需要...
原创 祛... 日前,百年保温杯品牌膳魔师(Thermos)因安全隐患被推上风口浪尖。 膳魔师在中国召回近400万件...
总结辅助挂!德普软件,功夫川麻... 总结辅助挂!德普软件,功夫川麻小程序辅助器,妙计教程(有挂方针)1、总结辅助挂!德普软件,功夫川麻小...
2026版软件!hhpoker... 2026版软件!hhpoker外挂靠谱吗,佛手在线辅助器,法子教程(有挂秘籍)1、每一步都需要思考,...
据公告内容!黑侠破解wepok... 据公告内容!黑侠破解wepoker,上品斗地主游戏辅助,指南书教程(确实有挂)1、据公告内容!黑侠破...
此事备受玩家关注!wepoke... 此事备受玩家关注!wepoker私人局辅助器怎么用,丰城双剑辅助,经验教程(详细教程)1、玩家可以在...