谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。它基于进化计算原理,通过LLM驱动的独立进化流程,不断优化代码。AlphaEvolve不仅超越人类专家设计的算法,还在数学和谷歌基础设施优化上取得突破。其自主创造力和持续自我改进能力,为迈向通用人工智能(AGI)和超级人工智能(ASI)提供了新方向。
谷歌DeepMind最近发布了AlphaEvolve,这是一种进化式编码代理,旨在自主发现新算法和科学解决方案。在主题为《AlphaEvolve:用于科学和算法发现的编码代理》的论文中,这项研究代表了向通用人工智能(AGI)甚至超级人工智能(ASI)迈出了突破性的一步。AlphaEvolve没有依赖于静态微调或人类标记的数据集,而是走上了一条以自主创造力、算法创新和持续自我改进为核心的完全不同的道路。
AlphaEvolve的核心是一个由大型语言模型(LLM)驱动的自我进化流程。该流程不仅仅生成输出,还能够跨代对代码进行变异、评估、选择和改进。AlphaEvolve从一个初始程序开始,通过引入精心设计的变更进行迭代优化。
这些变更以LLM生成差异的形式呈现——由LLM根据先前的示例和明确的指令给出代码修改的建议。软件工程中的“差异”是指文件的两个版本之间的差异,通常会突出显示要删除或替换的行以及要添加的新行。在AlphaEvolve中,LLM通过分析当前程序,并根据包括性能指标和以往成功编辑的提示提出一系列微调建议(例如添加函数、优化循环或更改超参数)来生成这些差异。
然后,使用针对任务定制的自动评估器对每个修改后的程序进行测试。最有效的候选程序会被存储、引用,并作为未来迭代的灵感来源进行重组。随着时间的推移,这个进化循环会催生出越来越复杂的算法,而这些算法往往超越了人类专家精心设计的算法。
AlphaEvolve的核心是建立在进化计算原理的基础上,进化计算是受到生物进化启发的人工智能的一个子领域。该系统从代码的基本实现开始,将其视为初始的“有机体”。 在历经多代的迭代进化过程中,AlphaEvolve修改了这段代码(引入变异或“突变”),并使用定义良好的评分函数评估每个变异的适用性。性能最好的变体能够存活下来,并作为下一代的模板。
这种进化循环通过以下方式协调:
这种反馈丰富、自动化的进化过程与标准的微调技术截然不同。它使AlphaEvolve能够生成新颖、高性能、有时甚至违反直觉的解决方案,从而突破了机器学习自主实现的界限。
为了了解AlphaEvolve的创新之处,将其与人类反馈强化学习(RLHF)进行比较至关重要,RLHF是一种用于微调大型语言模型的主要方法。
在RLHF中,人类的偏好被用来训练奖励模型,该模型通过像近端策略优化(PPO)这样的强化学习算法来指导LLM的学习过程。RLHF提高了模型的一致性和实用性,但它需要大量的人工参与来生成反馈数据,并且通常在静态的、一次性的微调机制中运行。
相比之下,AlphaEvolve可以:
在RLHF微调行为的地方,AlphaEvolve被发现并发明。在考虑AGI的未来发展轨迹时,这种区别至关重要:AlphaEvolve不仅能做出更好的预测,还能找到通往真理的新途径。
1.算法发现和数学进展
AlphaEvolve已经证明了它在核心算法问题上有突破性发现的能力。最值得关注的是,它发现了一种仅使用48次标量乘法即可将两个4×4复值矩阵相乘的新算法——超过了德国数学家Volker Strassen在1969年得出的49次乘法的结果,打破了56年来的理论上限。AlphaEvolve通过先进的张量分解技术实现了这一点,该技术经过多次迭代进化,优于几种最先进的方法。
除了矩阵乘法之外,AlphaEvolve还在数学研究方面做出了重大贡献。它在组合数学、数论和几何学等领域的50多个开放问题上进行了评估。在大约75%的案例中,它达到了已知的最佳结果,并在大约20%的案例下超越了这些结果。这些成功包括对Erdős最小重叠问题的改进、11维接吻数问题的更密集解决方案以及更高效的几何填充配置。这些结果凸显了其作为自主数学探索者的能力——在没有人为干预的情况下改进、迭代和进化越来越优化的解决方案。
2.谷歌计算堆栈的优化
AlphaEvolve还在谷歌公司的基础设施上带来了显著的性能提升:
总之,这些结果验证了AlphaEvolve在多个抽象级别(从符号数学到低级硬件优化)上运行的能力,并实现了性能提升。
3.对AGI和ASI的影响
AlphaEvolve不仅仅是一个优化器——它是对未来智能代理可以展示自主创造性的一个窗口。该系统能够制定抽象问题并设计自己的解决方法,这是朝着通用人工智能(AGI)迈出的重要一步。这超越了数据预测:它涉及结构化推理、策略形成和适应反馈——这是智能行为的标志。
其迭代生成和改进假设的能力也标志着机器学习方式的一种进化。与需要大量监督训练的模型不同,AlphaEvolve通过实验和评估的循环来改进自己。这种动态形式的智能使其能够在没有直接人类监督的情况下导航复杂的问题空间、丢弃性能不佳的解决方案,并强化那些表现优异的方案。
通过执行和验证自己的想法,AlphaEvolve同时充当了理论家和实验家的角色。它超越了执行预定义的任务,进入了发现的领域,模拟了自主的科学过程。每个拟议的改进都经过测试、基准测试和重新整合,从而可以根据实际结果而不是静态目标进行持续改进。
也许最值得关注的是,AlphaEvolve是递归自我改进的早期实例——人工智能系统不仅学习,还增强了自身的组件。在一些实例中,AlphaEvolve改进了支持其基础模型的训练基础设施。尽管仍受当前架构的限制,但这种能力开创了先例。随着可评估环境中出现更多问题,AlphaEvolve可能会朝着越来越复杂和自我优化的行为发展——这是超级人工智能(ASI)的一个基本特征。
AlphaEvolve目前的局限性是它对自动评估函数的依赖。这就限制了它的应用范围,使其仅限于可以用数学或算法形式化的问题。它还不能在需要默契的人类理解、主观判断或物理实验的领域中有意义地运作。
然而,未AlphaEvolve来的发展方向包括:
这些发展趋势指向越来越多能够自主解决高风险问题的代理系统。
AlphaEvolve是一个重大的进步——不仅在人工智能工具方面,而且在人们对机器智能本身的理解方面。通过将进化搜索与LLM推理和反馈相结合,它重新定义了机器能够自主发现的内容。这是一个早期但重要的信号,表明具有真正科学思维能力的自我改进系统已不再是理论性的。
展望未来,支撑AlphaEvolve的架构可能会递归地应用于其自身:进化其自身的评估器、改进变异逻辑、改进评分函数,并针对其依赖的模型优化底层训练管道。这种递归优化循环代表了一种迈向AGI的技术机制,在这种机制下,AlphaEvolve不仅仅完成任务,还改进了使其能够学习和推理的基础设施。
随着时间的推移,AlphaEvolve在更复杂和抽象的领域扩展,以及人类对这一过程的干预减少,它可能会表现出加速的智能提升。这种自我强化的迭代改进循环不仅适用于外部问题,也适用于其自身的算法结构,是AGI及其可以为社会带来的所有好处的关键理论组成部分。凭借其创造力、自主性和递归性,AlphaEvolve不仅仅是DeepMind旗下的一款产品,而且可能是第一个真正意义上通用并且具备自我进化能力的人工智能的蓝图。