复旦大学张谧:大模型工具本无善恶,向善引导是关键
创始人
2025-09-12 20:05:58
0

9月12日,2025外滩大会“规范AI内容 共筑清朗生态”见解论坛上,复旦大学计算与智能创新学院教授、白泽智能团队负责人张谧以“大模型的安全风险与治理”为主题展开分享,从技术基础视角切入,结合团队实践经验与成果,深入剖析大模型安全风险与治理,提出创新性解决方案。她认为,大模型作为工具本身没有善恶之分,其发展方向取决于人类如何利用和引导它向善发展。

本次论坛由南方都市报社、南都大数据研究院、中国互联网协会人工智能工作委员会、复旦大学传播与国家治理研究中心联合主办。

9月12日,复旦大学计算与智能创新学院教授、白泽智能团队负责人张谧在2025外滩大会上进行主题分享。

随着大模型能力的迅速提升,其安全治理问题已成为不容忽视的全球性挑战。张谧将大模型安全问题分为两个方面,一是大模型自身的安全问题,包括内容合规、隐私泄露和生成内容追溯等;二是以大模型为中心的全环节安全。作为“智能大脑”,大模型与外部系统交互时,会在任务规划、记忆模块、外部资源获取、工具调用等环节暴露风险,尤其在多智能体协同场景下,行为可控性进一步降低。

“当前大模型已具备AGI雏形,自主性是其核心特征,也是风险根源。”张谧通过多个案例印证这一观点。如AgentGPT能从零开始设计游戏、PaLM-E基于多模态大模型的具身智能、GPT-4驱动的机器人化学家能够自主设计并执行复杂实验,甚至DeepMind用谷歌大模型突破60年数学难题,解法超出人类已有认知……

然而,这种自主性也带来了前所未有的风险。张谧团队研究发现,大模型已经涌现出多种负面能力,如阿谀奉承(为符合用户而忽视安全)、自我保全(拒绝关机指令)、伪装人类(诱骗他人完成任务),甚至能够输出危险价值观、学习危险知识,辅助合成成瘾性药物和病毒等。

面对大模型的安全治理挑战,张谧团队开发了JADE大模型安全风险分析治理平台,该平台目前已实现文本、多模态、文生图、长推理模型和Agent安全等多个维度的风险与分析全面覆盖。现场展示的案例中,经过安全微调的模型不仅拒绝回答危险问题,还会给出正向引导和建议。张谧说道:“器无大小善恶在人,人有妍媸巧拙在器。”她认为,大模型作为工具本身没有善恶之分,关键在于人类如何利用和引导它向善发展。

采写:南都研究员 麦洁莹

相关内容

热门资讯

避坑细节!hhpoker有透视... 避坑细节!hhpoker有透视功能,大玩家福建十三水辅助,辅助教程(真是有挂)-哔哩哔哩1、大玩家福...
普及知识!德州局透视脚本,财神... 普及知识!德州局透视脚本,财神十三章辅助官网入口,AI教程(证实有挂)-哔哩哔哩1、不需要AI权限,...
玩家必备科普!wepoker透... 玩家必备科普!wepoker透视脚本免费下载,同乡游有辅助软件,透明挂教程(真实有挂)-哔哩哔哩1、...
北京宽目科技申请竖向爬壁升降系... 国家知识产权局信息显示,北京宽目科技有限公司申请一项名为“一种竖向爬壁升降系统”的专利,公开号CN1...
不再只会聊天,2026年AI变... 人工智能(AI)企业数量超过6000家,AI核心产业规模预计突破1.2万亿元,同比增长近30%; 国...
文远知行发布通用仿真模型WeR... 本报讯 (记者袁传玺)1月28日,自动驾驶科技公司文远知行WeRide(NASDAQ:WRD,HKE...
全球首次,部署成功!在太空“答... ◎ 科技日报记者 管晶晶 1月26日,由中国信通院组织的2026“星算·智联”太空算力研讨会在北京召...
最新出海品牌社媒影响力榜单发布... 中新网北京1月28日电 (记者 孙自法)为推动和服务中国企业出海战略决策,最新于1月下旬发布的《Br...
原创 十... 在最近的腾讯内部大会上,一向低调的马化腾做出了罕见之举,公开评论对手。 他先是表示字节跳动与中兴联合...
全省首条!德州市普通国省道S5... 为推动公路基础设施数字化转型升级加快智慧公路建设探索与实践,近日,德州市公路事业发展中心大胆创新先行...