清华团队推出“安全增强版DeepSeek”
创始人
2025-02-24 22:00:24
0

人民网北京2月24日电 (记者赵竹青)2月23日,清华大学计算机系相关研究团队宣布推出大语言模型RealSafe-R1。该模型基于DeepSeek R1进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型DeepSeek在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对DeepSeek-R1系列模型进行后训练,正式推出RealSafe-R1系列大模型。实验数据表明,RealSafe-R1安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1各尺寸模型及数据集将于近期向全球开发者开源。

相关内容

热门资讯

SUS431不锈钢化学成分与材... SUS431 不锈钢的用途及特性 1. 概述 SUS431 是一种马氏体不锈钢,具有高强度和良好的耐...
火星春日奇观:冰川崩裂,干冰喷... 火星的春季,与我们地球上的春暖花开截然不同,它以一系列震撼的自然现象宣告着季节的更迭。2024年11...
山东港口发布《人工智能(大模型... 海报新闻记者 陈博通讯员 李春颖 报道 2月19日,山东港口2025年度科技创新大会在青召开,正式发...
DeepSeek掀起中国AI革... 自今年1月以来,DeepSeek浪潮席卷全球,引发广泛关注与行业变革。国产AI芯片厂商迅速响应,积极...
武汉AI十条:最高2000万元... 来源:元力社 2月18日,武汉市人民政府发布《武汉市促进人工智能产业发展若干政策措施》。 这是继《...
政务系统拥抱DeepSeek ... 2月16日,深圳宣布,全市政务系统全面启用DeepSeek大模型。2月17日,宣布首批70名政务AI...
座谈会上最年轻的人,也被打压过 作者| 猫哥 来源| 大猫财经Pro 机器人概念彻底火了,最重要的一个推手无疑就是宇树科技。 去年...
学而思“上新”,学习机的“参数... 来源:雪豹财经社 在小红书上,“学习机哪个牌子好用推荐”的相关笔记超过130万篇。面对市面上大量同质...
GTC泽汇资本:微软取消人工智... GTC泽汇资本表示,微软公司(Microsoft Corp.,MSFT)近期开始取消大量美国数据中心...
苏州乐威精密钣金取得圆形钣金焊... 金融界2025年2月19日消息,国家知识产权局信息显示,苏州乐威精密钣金有限公司取得一项名为“一种圆...