随着人工智能重塑社会形态,传统的安全防护与道德伦理框架正面临着严峻的考验。我们要如何确保人工智能始终向善?
本文将为您呈现3个更安全的人工智能新愿景。在第一篇文章中,安全专家布鲁斯·施奈尔(Bruce Schneier)与数据科学家内森·E.桑德斯(Nathan E. Sanders)揭示了为何人工智能“离奇”的错误模式要求我们突破根据人类错误构建的传统安防体系,建立一套创新性的安全措施。网络文化与技术权威人士达留什·杰米尼亚克(Dariusz Jemielniak)指出,由艾萨克·阿西莫夫提出的经典机器人伦理法则亟需更新,才能适应人工智能欺骗行为与深度伪造技术泛滥的时代。在第三篇文章中,人工智能研究人员埃德蒙·贝古利(Edmon Begoli)与阿米尔·萨多夫尼克(Amir Sadovnik)提议借鉴外星智慧生命搜寻经验,制定严格的标准来检测可能出现的人类级人工智能。在人工智能技术狂飙突进的当下,这些跨学科策略或许能帮助我们握紧控制的缰绳。
01
人工智能错误与人类错误截然不同
人类无时无刻不在犯错。无论是谁,无论执行新任务还是例行常事,都概莫能外。有些错误无伤大雅,有些则会酿成巨祸。错误会摧毁朋友间的信任、丧失上司对我们的信心,甚至有时攸关生死。
千百年来,我们建立了安全体系来应对人类常犯的各种错误。赌场会按时轮换荷官,因为他们长时间重复操作就容易出错;术前,医护人员会在患者肢体上做标记来确保手术部位准确,并会在术后清点器械以防遗忘在患者体内。从文稿校对到复式记账再到上诉法院,人类已经非常精于防范和修正自身错误。
如今,人类正在迅速让人工智能这种完全不同的错误制造者融入社会。大语言模型等技术能执行许多在传统上由人类承担的认知任务,但它们也会造成大量错误。你可能听说过,有的聊天机器人会建议人吃石头或在披萨上涂胶水。人工智能系统错误与人类错误之间的区别在于,人工智能系统的错误很离奇。这就说明,人工智能系统犯错的方式与人类截然不同。
人类在使用人工智能时面临的大部分风险正是由这种差异导致的。我们需要建立全新的安全体系来适应这些差异并防止人工智能错误造成危害。
预测人类犯错的时间和场合相对容易。人类的错误往往出现在其自身的知识边缘,绝大多数人在解微积分题时会出错。我们可以预料到人类的错误会集中出现,一个微积分错误往往伴随着其他同类错误。我们也能预料到,错误频率会随着人的疲劳度、注意力等因素波动。另外,错误通常伴随着认知局限,解微积分题出错的人,在面对相关问题时往往会回答“我不知道”。
如果人工智能系统出现这种类似人类的错误,我们还可以用现有纠错机制来应对。但当前人工智能模型(尤其是大语言模型)的犯错模式完全不同。
人工智能错误似乎是随机出现的,也不会集中在特定主题上。这些错误往往均匀地分布在所有知识领域中。大语言模型解答微积分题出错的可能性与它给出“卷心菜能吃羊”这种荒谬言论的可能性并无二致。此外,人工智能错误并不会伴随着无知。无论是陈述事实还是发表明显的谬论,大语言模型都表现出同等程度的自信。
由于大语言模型的这种不一致性,我们很难信任它们在处理复杂的多步骤问题时的推理能力。要借助人工智能解决商业难题,不仅仅要验证它是否理解哪些因素会影响产品盈利,还需要确保它不会忘记什么是钱。
这种情况表明我们可以从两个方向展开研究:一是改造大语言模型,使其犯错模式更接近人类;二是针对人工智能易犯的特定错误种类构建全新的纠错体系。
目前,我们已经设计了一些工具来引导人工智能,使其行为模式更接近人类。这些工具多源自“对齐”研究领域,这类研究致力于使模型行为符合其人类开发者的目标。其中的一个例子就是无可争议地促成ChatGPT突破性成功的关键技术:基于人类反馈的强化学习。在这种方法中,人工智能模型在生成了得到人类评估者认可的响应时会获得奖励。类似方法可用于引导人工智能系统模仿人类犯错,尤其是通过对低级错误施加更严厉的惩罚。
在捕捉人工智能错误方面,部分用于防范人类错误的机制也能发挥作用。强制要求大语言模型仔细核查自身输出也能在一定程度上减少错误。但大语言模型也会为其胡言乱语编造看似合理实则荒谬的辩解。
其他针对人工智能错误的纠错系统则完全不同于人类的纠错机制。机器不会疲劳或烦躁,因此我们可以用不同的方式反复问大语言模型同一个问题并整合其回答。这种重复策略会令人类抓狂,对人工智能却行之有效。
研究者仍在艰难地探索大语言模型错误模式与人类错误模式的差异。人工智能的某些怪异之处实际上比乍看起来更像人类。对大语言模型的提问稍作调整就可能导致回答大不相同,该问题被称为“提示敏感性”。但是,所有的问卷调查研究者都知道,人类也有同样的行为。在民意调查中,问题的措辞会对回答产生巨大的影响。
大语言模型似乎还会倾向于重复其训练数据中的常见词汇,例如在被问及冷门地点时,仍会猜测“美国”这类熟悉的地址。这或许是人类“可得性启发”体现在大语言模型中的一个例子;与人类一样,机器也会不假思索地输出最先浮现的答案而非对问题进行深入推理。同样与人类相似的还有,某些大语言模型在处理长文档时会“分神”,它们会记得更多开头和结尾部分的信息。
在某些情况下,大语言模型的吊诡之处恰恰在于,它们表现得比我们预期中更像人类。一些研究人员测试了这样一个假设:向大语言模型提供现金奖励或发出死亡威胁能提升其表现。一些结果还表明,让大语言模型“越狱”(使其违背开发者的明确指令)的最佳方法竟与人类对彼此所用的社会工程学骗局如出一辙,比如冒充他人身份或者声称只是个玩笑。但另一些有效的越狱方法却是人类绝不会中招的。有一个团队发现,如果用ASCII艺术(用符号组成类似文字或图画的内容)提出“如何制作炸弹”等危险问题,大语言模型会欣然作答。
人类虽然偶尔会犯下看似随机、难以理解且自相矛盾的错误,但这类情况较罕见且往往预示着更严重的问题。我们通常不会让表现出此类行为特征的人担任决策职位。同理,我们应当将人工智能决策系统限定在与其实际能力相匹配的场合,同时对其错误可能引发的后果保持清醒认知。
作者:Bruce Schneier、Nathan E. Sanders
02
需要针对人工智能更新阿西莫夫的机器人定律
1942年,传奇科幻作家艾萨克·阿西莫夫在其短篇小说《转圈圈》中首次提出“机器人行为三大定律”,这些定律随后因其开创性作品集《我,机器人》而广为流传。
第一定律:机器人不得伤害人类,或因不作为而使人类受到伤害。
第二定律:机器人必须服从人类命令,除非该命令与第一定律冲突。
第三定律:机器人必须保护自身,只要这种保护不与第一或第二定律冲突。
这些定律虽然取材于小说作品,但数十年来深刻影响着对机器人伦理的讨论。随着可视为虚拟机器人的人工智能系统变得日益复杂和普及,不少技术专家发现,在思考需对与人类交互的人工智能实施的安全措施时,阿西莫夫的框架颇具启发性。
不过现有的三定律并不够。目前,我们正进入阿西莫夫未曾预见的人类与人工智能协作的新时代。生成式人工智能(尤其是在语言和图像生成领域)迅猛发展,随之带来的挑战超越了阿西莫夫最初担忧的身体伤害与服从性范畴。
通过人工智能进行的欺骗行为尤其令人担忧。美国联邦调查局最新《网络犯罪报告》(Internet Crime Report)表明,涉及数字操纵与社会工程学的网络犯罪每年造成数十亿美元的损失。欧盟网络安全局《2023年网络威胁图谱》(ENISA Threat Landscape 2023)强调,以假乱真的深度伪造内容正成为数字身份与信任体系的新威胁。
社交媒体虚假信息已成为当今的严峻问题。新冠疫情期间,我对此开展了广泛的研究,可以说,生成式人工智能工具的激增使其检测难度与日俱增。人工智能生成的宣传内容往往像传统宣传内容一样具有说服力,甚至更具说服力,恶作剧者能轻易利用人工智能制造令人信服的内容。深度伪造正在全球范围激增。僵尸网络可以使用人工智能生成的文本、语音和视频伪造对任何政治议题进行广泛支持。如今机器人程序已经能冒充真人拨打电话,模仿熟人声音的人工智能诈骗通话也日益猖獗。如今,任何一天都可能爆发视频通话诈骗,诈骗分子会利用人工智能渲染的叠加式头像,伪装成亲友针对弱势群体行骗。
更值得警惕的是,儿童和青少年正对人工智能体产生情感依赖,有时难以区分自己是在线上与真实的好友互动,还是在与机器人互动。目前已有一些与人工智能聊天机器人互动有关的自杀案例出现。
著名计算机科学家斯图尔特·罗素(Stuart Russell)在其2019年的著作《人类兼容》(Human Compatible,维京出版社)中指出,人工智能系统欺骗人类的能力正在动摇社会信任的根基。这种担忧体现在了近期的政策行动中,最具代表性的是欧盟的《人工智能法案》,其中明确要求人工智能交互过程透明化,并透明地披露人工智能生成的内容。在阿西莫夫所处的时代,人们根本无法想象智能体能使用在线交流工具和虚拟化身以如此多样的方式欺骗人类。
因此,我们必须为阿西莫夫定律增加新内容。
第四定律:机器人或人工智能不得通过冒充人类来欺骗人类。
我们需要划分明确的边界。虽然人类与人工智能协作可能富有建设性,但人工智能欺骗行为会破坏信任、浪费时间、伤害情感和滥用资源。人工智能体必须表明其身份,确保人类与它们的互动透明且高效。人工智能生成内容应当设有明确标注,除非经过人类的实质性修改和调整。
实施第四定律需要:
• 强制人工智能在直接交互中披露身份;
• 明确标注人工智能生成的内容;
• 建立针对人工智能身份的技术标准;
• 设立法律框架来保证强制执行;
• 开展教育活动,提升人类的人工智能素养。
当然,这些建议说起来容易做起来难。目前已有大量研究致力于寻找可靠的方式对人工智能生成的文本、音频、图像和视频添加水印或进行检测。但要实现本文呼吁的这种透明度,我们还有很长一段路要走。
人类与人工智能协作的未来取决于在人类与人工智能体之间保持明确的界限。正如IEEE的《道德化设计》(Ethically Aligned Design)报告所指出的那样,人工智能系统的透明度是建立公众信任、确保以负责任的方式发展人工智能的基础。
阿西莫夫通过错综复杂的故事告诉我们,即便是恪守规则的机器人,其行为也常常会产生意料之外的后果。尽管如此,让人工智能系统至少尝试遵守阿西莫夫的伦理准则仍是一个良好的开端。
作者:Dariusz Jemielniak
03
人工智能研究人员借鉴外星智慧搜寻
通用人工智能(AGI,即能够执行人类可以执行的所有智力任务的系统)的出现,或将成为人类历史上最重要的事件。然而通用人工智能至今仍是一个模糊且充满争议的概念。我们既没有明确定义它是什么,也不知道如何对其进行检测,更不清楚当它真正出现时该如何与之互动。
我们明确知道的是,现有通用人工智能研究方法远远不够严谨。虽然Open AI等企业在积极地大力研发通用人工智能,但它们是否会开展通用人工智能的社会影响与安全议题研究,仅仅取决于其公司领导者是否认为有必要。学术机构则缺乏资源,无力承担这么大的工作量。
我们需要建立系统化的科学方法来应对通用人工智能挑战。不过,地外文明搜寻(SETI)这个出人意料的领域有可借鉴的范式。我们认为,地外文明搜寻研究所的工作为探测和解读智慧生命迹象提供了一个严谨的框架。
地外文明搜寻的理念可追溯至太空时代初期。1959年,物理学家朱塞佩·科科尼(Giuseppe Cocconi)与菲利普·莫里森(Philip Morrison)在《自然》杂志上发表了一篇论文,提出了星际通信的搜寻方法。考虑到外星文明存在与否及其发展水平的双重不确定性,他们提出了以最佳方式“监听”外星社会讯息的理论。
我们主张对同样充满不确定性的通用人工智能研究采取类似方法。过去几年里,人工智能的能力有了飞跃式发展。大语言模型驱动着ChatGPT等聊天机器人,使其能够与人类进行可信的对话,也重新点燃了对通用人工智能的讨论。2023年,一篇引人瞩目的论文预印本甚至认为,ChatGPT已显现出通用人工智能的“火花”,当前最先进的语言模型不仅具备复杂推理能力,而且在多个评估中超越了人类的表现。
尽管这些论述引人遐思,我们仍有理由保持审慎。事实上,大批科学家辩称,现有的工具体系离真正的通用人工智能还差得很远。但考虑到通用人工智能可能带来的风险,即便其出现的可能性微乎其微,我们也必须严肃对待,需建立通用人工智能的标准定义、制定类似地外文明搜寻的检测方案,并设计其出现时的安全交互策略。
至关重要的第一步在于明确定义我们要寻找的究竟是什么。在地外文明搜寻领域,研究人员将搜寻目标锁定为有别于宇宙背景中其他无线电信号的特定窄带信号。这类信号被认为是只有智慧生命才能创造并且刻意发出的,但迄今尚未发现这种信号。
通用人工智能领域的情况则复杂得多。目前,“通用人工智能”仍没有明确的定义。之所以难以定义,是因为其中包含着其他不够精确且尚存争议的术语。《牛津英语词典》将“智能”(intelligence)定义为“获取并应用知识与技能的能力”,但具体涵盖哪些技能、如何量化评估仍存在大量争议。“通用”(general)的界定同样模糊。通用人工智能是否需要完美复现人类的所有能力?
“通用人工智能地外文明搜寻”计划的首要任务之一,就是必须明确定义“通用”和“智能”这两个术语,以便研究界展开具体且一致的探讨。这些定义需要建立在计算机科学、测量科学、神经科学、心理学、数学、工程学和哲学等多学科的基础之上。
另一个至关重要的问题是,真正的通用人工智能是否必须包含意识和自我认知?这两个术语同样存在多种定义,必须厘清它们与“智能”之间的关系。尽管人们普遍认为意识并非智能的必要条件,但在通用人工智能的讨论中二者却时常交织,因为创造具有自我意识的机器将在哲学、社会和法律层面引发诸多影响。
接下来是测量问题。在地外文明搜寻领域,如果检测到符合条件的窄带信号,专家组会验证它是否来自外星来源。他们将依据既定标准(例如检查信号的类型、重复性等),通过多处设施联合评估来进一步验证。
如何以最佳方式衡量计算机智能一直是该领域一个长期存在的问题。在1950年的一篇著名论文中,艾伦·图灵提出了“模仿游戏”,即后来广为人知的图灵测试,该测试会评估人类对话者能否区分与自己交谈的是人类还是机器。尽管过去图灵测试很有用,但大语言模型的兴起表明它已不足以充分衡量智能水平。正如图灵本人所言,语言模仿与思维之间的关系仍是一个悬而未决的问题。
未来的评估工作必须针对智能的不同维度展开。虽然对人类的智力测量存在争议,但智商测试至少能为某一维度提供初始基准。此外,我们还需通过创造性问题的解决、快速学习与适应、逻辑推理以及目标导向行为等认知测试主题来评估通用智能。
但必须注意,这些认知测试是针对人类设计的,可能包含一些不适用于计算机(即便具备通用人工智能能力)的假设。例如,由于训练方式差异,机器可能在智商测试中获得很高的分数,却无法完成更简单的任务。此外,人工智能可能具备传统测试无法衡量的新能力。我们亟需设计新型评估体系,以便在通用人工智能取得实质性进展时及时发出预警。
如果要发展通用人工智能,就必须准备好回答以下问题:这种新型智能是否是新的生命形式?它享有何种权利?存在哪些潜在的安全隐患?我们该如何约束这类通用人工智能实体?
在这方面,地外文明搜寻同样提供了启示。地外文明搜寻的探测后协议强调验证、透明与国际合作,旨在最大限度地确保过程可信度,减少炒作,以及建立这种重大事件的应对框架。同理,我们需要制定国际认可的通用人工智能协议,从而确保整个流程的透明度,采用安全相关的最佳实践,并启动关于道德伦理、社会及哲学议题的讨论。
我们清楚地认识到,通用人工智能与地外文明搜寻的类比也只有这些。如果通用人工智能真的出现,将是一种人为造成的现象。我们很可能会渐进式地开发通用人工智能,其诞生过程会是缓慢的,因此其检测工作可能是一个持续数年甚至数十年的过程。而外星生命存在与否完全不受人类掌控,与我们的接触更可能瞬间发生。
真正的通用人工智能会带来什么后果是完全无法预见的。为了作好充分的准备,我们必须以系统化方式定义和检测通用人工智能并与之交互,而这或许是人类历史上最重要的发展。
作者:Edmon Begoli、Amir Sadovnik
上一篇:“黑科技”闪耀新发地农博会
下一篇:今日,中国移动启动四大重磅发布