清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

看完春晚后发现,AI是普通人最... 一 春晚的赞助商,历来是风向标。尤其是今年的春晚,经济换挡的风向已经很明确了。 在众多节目中,令我震...
订单排队,春节赶工:68岁老牌... 转自:四川在线 四川在线记者 彭瑀珩 2月20日,大年初四,四川彭山经开区。四川省精细化工研究设计院...
宇树CEO王兴兴:当前机器人技... 据东方财经,近日,在@微博科技 官方栏目《科技漫谈》中,联合出品人@卫诗婕SJ_Jelyne 对话 ...
一边博声量、一边“真干活”,机... 文 | 智能相对论 作者 | 叶远风 毫无疑问,2026年春晚是机器人“存在感”最强的一届,结束多天...
不到30秒稳稳固定,国内首次实... 2月21日,全国首艘投入商业运营的智能航行集装箱船舶“智飞”号凭借无人自主航行模式,精准靠泊山东港口...
100万亿年后宇宙终极结局:从... 100万亿年后宇宙终极结局:从繁华到死寂,万物终将归零 你是否曾在深夜仰望星空,好奇跨越亿万年尺度之...
带你了解!新道游开挂,约战竞技... 带你了解!新道游开挂,约战竞技场辅助器,正版开挂辅助教程(真实有挂);无需打开直接搜索薇:13670...
揭秘一下!好友赣南辅助,微信小... 揭秘一下!好友赣南辅助,微信小程序微乐辅助器,细节开挂辅助教程(有挂秘籍);无需打开直接搜索打开薇:...
科普攻略!福建天天开心技巧,潮... 科普攻略!福建天天开心技巧,潮汕汇鱼虾蟹辅助器,推荐开挂辅助教程(有挂教学);无需打开直接搜索加薇1...
一分钟带你了解!兴动互娱辅助脚... 一分钟带你了解!兴动互娱辅助脚本,决战卡五星辅助神器,正版开挂辅助教程(有挂透明挂)1、下载安装好决...