科学家设定衡量人工智能能力新标准
创始人
2025-05-02 11:20:23
0

参考消息网5月1日报道据美国趣味科学网站4月27日报道,人工智能(AI)可以在执行短时长任务时轻松超越人类,但是如果我们希望AI成为真正的智慧系统,耗时较长的任务才是真正需要应对的挑战。

科学家设计出一种衡量AI系统能力的新方法,能考察AI在完成复杂任务时以多快的速度击败人类或者与人类比肩。

为量化AI模型的性能提升幅度,这一最新研究成果建议科学界参考人类完成相关任务的时长,然后基于AI完成相同任务的时长来衡量AI系统的能力。3月30日,该科研团队在美国预印本文献库公布了研究成果,但论文尚未经过同行评审。

科研团队发现,对于人类需要不到4分钟就能完成的任务,AI模型的成功率能够达到近100%。可是,对于人类需要超过4个小时才能完成的任务,AI模型的成功率仅有10%。对于耗时较长的任务,早期AI模型的表现不如最新版本。

这是意料之中的发现。科研团队强调说,在过去6年里,每7个月,通用型AI以50%的可靠度完成任务的时长就能增加一倍。

这项研究发现,AI的“注意力持续时间”正在迅速延长。根据这一发展趋势,科研团队预计(前提是其研究结果能够普遍适用于现实世界的任务),到2032年,AI就可以自动完成人类软件开发一个月的工作量。

科研团队表示,为更好地理解AI能力的快速提升幅度及其对社会的潜在影响和风险,这项研究可以建立与现实世界结果相关联的新标尺,以便“对AI工作表现的绝对状态、而非单纯的相对状态给出有意义的解读”。

这一潜在的新标尺便于我们更好地理解AI系统的实际智慧和能力。

资深AI专家索罗布·卡泽鲁尼安说:“这一标尺本身不太可能改变AI的发展进程,但是对于一些很适合使用AI的任务而言,它可以跟踪AI系统在这些类型任务上的发展速度。”

卡泽鲁尼安说:“基于人类完成特定任务所需的时长来评估AI,为衡量AI的智力水平和通用能力提供了有趣的替代性指标。首先,没有任何单一指标可以体现我们对‘智慧’的理解。其次,完成一项耗时较长的任务而不出现漂移或错误的可能性微乎其微。第三,这种方法可以直接衡量我们希望利用AI去完成的那些任务类型,即解决复杂的人类问题。”

可以认为,除了提出新的衡量标尺,上述最新论文的最大影响在于其凸显AI系统的发展速度,以及不断提升的AI处理长时长任务的能力。有鉴于此,美国电气电子工程师学会会员、奇点大学AI伦理工程师埃莉诺·沃森预测说,能够处理各种任务的通用型智能体将很快出现。

沃森说:“到2026年,我们将看到AI变得越来越通用,可以一整天或者一个星期都在处理各种任务,而不是仅仅处理经过严格限定的短时长任务。”

沃森认为,对企业而言,这一发展趋势会促成能够承担大量专业工作的AI系统。这不仅可以降低成本,提高效率,还便于人类专注于更具创造性、战略性和人际交往性的任务。

沃森还指出:“对消费者而言,AI将从简单的助手演变为可靠的个人助理,能够连续数日乃至数周处理复杂的生活任务,比如制定旅行计划、监测身体健康状况或者管理金融投资,而且只需要最低程度的监督。”

事实上,AI处理各类长时长任务的能力,很可能在今后几年对社会互动方式和社会利用AI的方式产生重大影响。(编译/刘子彦)

3月31日在汉诺威工博会开幕式上,参观者正在谈论展台上的人工智能机器人。(法新社)

相关内容

热门资讯

让技术演进与就业促进双向奔赴(... 在未来数十年,熟练使用人工智能很可能成为大多数职业的必备技能,并深刻影响就业市场。就业市场变革的本质...
深度测评:国内数控设备十大品牌 在制造业蓬勃发展的当下,数控机床作为工业生产的 “大脑” 与 “心脏”,其技术水平和质量直接影响着制...
国产大型变速抽蓄机组交流励磁系... 本报广州7月6日电 (记者程远州)7月6日,广东肇庆浪江300兆瓦变速抽水蓄能机组交流励磁系统通过工...
胡说八道!王化辟谣小米与徕卡终... 7月7日,针对小米与徕卡的合作关系即将结束的传闻,小米公关总经理王化昨日发文进行辟谣。 王化回应称:...
中国电信研究院&中兴通... 获取完整报告,公众『数字化新机遇』阅读原文或点击菜单获取。 报告《中国电信研究院&中兴通讯:6G网络...
全国档案查询利用服务平台移动端... 新华社北京7月6日电 记者6日从国家档案局获悉,全国档案查询利用服务平台移动端APP当日正式上线。这...
福建师范大学与龙岩市永定区教育... 中新网龙岩7月6日电 (赖敏 蔡兹章)7月6日,福建师范大学与龙岩市永定区教育局在福建龙岩市永定区城...
开景新材料取得硅油涂布测试装置... 金融界2025年7月5日消息,国家知识产权局信息显示,东莞市开景新材料科技有限公司取得一项名为“一种...
安诺其举行投资者活动 介绍AI... 财中社7月6日电安诺其(300067)发布公告,近期公司举行了一次投资者关系活动,主要内容涉及公司基...
华为盘古团队回应开源模型抄袭:... 新京报贝壳财经讯(记者韦博雅)近日,网络上有声音质疑华为盘古大模型涉嫌抄袭阿里巴巴通义千问模型。7月...