清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

“海马emoji”究竟存不存在... 目前,全球统一的 emoji 体系中尚未出现代表海马的图标。负责制定 emoji 国际标准的统一码联...
从“空中桥梁”到“制造基地”:... 随着双方代表在协议上郑重签字,卢森堡SolarCleano光伏清扫机器人研发生产总部基地项目正式落地...
探寻AI的边界,直面微短剧的挑... 9月13日下午,作为2025金熊猫国际文化论坛的重要组成部分,四场平行论坛同步拉开帷幕。来自不同文化...
原创 全... 韩国HD现代重工在全球首次开发出了能够解决氨燃料动力船上发生的核心安全及环境问题的装置,并获得了全球...
竞逐全球竞争新赛道,广东现代化... 从好莱坞片场到瑞士雪山之巅,深圳大疆无人机以超过八成全球市场占有率,让“广东智造”翱翔世界;在佛山美...
如何对科技成果进行估值并确定成... 一项科技成果该卖多少钱或花多少钱买的问题,一直受到特别的关注,但往往谁也说不清道不明,谁也给不出一个...
追逐卡蕾多连接超时怎么办——网... 在《追逐卡蕾多》这款充满机车美少女与异常现象的游戏中,玩家常常会遭遇连接超时的问题,这让许多期待与心...
我国自主研发建造最大海上浮式液... 9月14日,在南通海事局保障下,我国自主研发建造的最大吨位、最大储气量的新型海上浮式液化天然气装置(...
aapoker透明挂!we p... aapoker透明挂!we poke软件免费版,WepOke好像真的有挂,必胜教程(有挂辅助);We...
总算清楚!中至抚州有没有挂(辅... 总算清楚!中至抚州有没有挂(辅助)一直有挂(2024已更新)(哔哩哔哩)1)中至抚州有没有挂辅助挂:...