为什么矩阵和激活函数就能涌现智能?
创始人
2026-05-13 11:38:54
0

来源:市场资讯

(来源:图灵人工智能)

您想知道的人工智能干货,第一时间送达

从符号主义到万能近似定理

序:一个让人困惑的事实

ChatGPT 能写诗、能编程、能通过律师资格考试。

但如果你拆开它的引擎看,核心操作只有两个:

1. 矩阵乘法(线性变换)

2. 激活函数(非线性变换)

就这两样东西,反复叠加,叠了几十层——然后“智能”就涌现了?

这听起来不可思议。就好像有人告诉你:用乐高积木和胶水,就能造出一架会飞的飞机。

但这不是魔法,背后有 70 年的思想演进,和一个关键的数学定理作为底气。

第一章:AI 的两条路线

AI 领域从诞生那天起,就存在两个根本不同的思想流派。理解这两条路线,你就理解了 AI 发展的主线。

符号主义:把知识写成规则

核心思路:智能 = 逻辑推理。人把知识整理成规则,机器按规则执行。

想象你要教机器认猫。符号主义的做法是写一本手册:

“有毛、四条腿、尖耳朵、会喵喵叫 → 这是猫”

再想象教人做菜。符号主义的做法是给一本精确菜谱:

“油温 180 度,盐 3 克,翻炒 2 分钟”

优点很明显:过程透明、结果可解释。你问机器“为什么判断这是猫”,它能告诉你“因为满足了规则第 3 条第 2 款”。

1997 年,IBM 的深蓝击败国际象棋世界冠军卡斯帕罗夫,靠的就是穷举走法加上人类专家手写的评估规则。这是符号主义的巅峰时刻。

但致命问题来了——规则写不完。

遇到无毛猫(斯芬克斯猫),规则就崩了。“杯子倒了水会洒”这种常识,你怎么写规则?几亿条也写不完。就像你想写一本包含全人类所有知识的百科全书——写到头秃也写不完。

联结主义:让机器自己学

核心思路:智能 = 连接和学习。人搭好网络结构,机器从数据中自己发现规律。

灵感来自人脑——860 亿个神经元,通过突触连接。没有人给大脑写过规则手册,婴儿是通过不断地看、听、触摸,自己调整大脑中连接强度来学习的。

教机器认猫?联结主义的做法是:给机器看一万张猫的照片,每张告诉它“这是猫”或“这不是猫”。看多了,连无毛猫也能认出来。

教人做菜?让他去饭店吃一万顿饭,然后进厨房自己试。试错中学会。你问他“为什么放这么多盐”,他说“感觉对”——解释不清楚,但就是好吃。

一张表看清两条路线

符号主义

联结主义

核心思路

把知识写成规则,让机器推理

把知识藏在连接里,让机器学

类比

背字典——查表、对号入座

小孩学说话——听多了自然会

谁在思考人

想好逻辑,机器执行

机器

在数据中发现模式

优点

过程可解释,结果可追溯

能处理模糊、复杂的问题

缺点

规则写不完,脆弱

结果难解释(“黑箱”)

代表

专家系统、IBM 深蓝

深度学习、GPT、AlphaGo

第二章:70 年拉锯战

这两条路线不是和平共处,而是此消彼长的交锋。

第一幕:符号主义的黄金年代(1956—1990s)

1956 年达特茅斯会议,AI 诞生。主流思路就是符号主义——把世界翻译成符号和规则,机器就能思考。

专家系统一度风靡:医疗诊断系统把几千条规则写进去,IF 发烧 AND 咳嗽 THEN 肺炎。但遇到病人同时有三种病,规则就打架了。

而联结主义在这段时期命运多舛。1958 年 Rosenblatt 发明感知机,媒体欢呼“思考的机器”。但 1969 年 Minsky 出书证明感知机的局限性,联结主义被打入冷宫——这就是第一次 AI 寒冬。

第二幕:联结主义的蛰伏与崛起

联结主义的想法——模仿大脑的神经网络——其实 1943 年就有了,比“人工智能”这个词还早 13 年。但它一直等不到三个关键条件:

2000年之前 2012年之后 缺数据 ❌ 互联网 → 海量数据 ✅ 缺算力 ❌ GPU/TPU → 暴力计算 ✅ 缺算法 ❌ Transformer 等突破 ✅

三件套凑齐后,2012 年 AlexNet 碾压传统方法,深度学习爆发。2017 年 Transformer 出现。2022 年 ChatGPT 让每个普通人都感受到了 AI 的力量。

第三幕:一局围棋定乾坤

如果你只记一件事来理解两条路线的胜负,就记这个:

深蓝(1997,下象棋)= 符号主义的巅峰。暴力搜索 + 人写的评估规则。

AlphaGo(2016,下围棋)= 联结主义的胜利。神经网络 + 自我对弈学习。

围棋的可能性是宇宙原子数量的 N 倍,穷举不可能。符号主义在围棋面前彻底投降,联结主义却赢了。

今天你用的 ChatGPT、AI 画画、AI 写代码,全是联结主义的产物。

第三章:联结主义靠谱吗?

有人会问:联结主义说“搭好网络让机器自己学”——那人类设计网络结构、设定训练方法,是拍脑袋猜的吗?

绝对不是。要分三层来看。

第一层:数学地基——有严格证明 ✅

原理

来源

保障了什么

梯度下降

1847 年柯西

参数朝正确方向调整

反向传播

微积分链式法则

高效计算每个参数该调多少

万能近似定理

1989 年数学证明

网络的“天花板”是无限的

这些不是猜的,是有 170 年数学保障的。

第二层:工程原理——前人经验的结晶 🔶

深度网络比宽网络更高效、Dropout 防过拟合、BatchNorm 加速训练、残差连接让超深网络可训练。这些有理论直觉,也有大量实验验证。

第三层:经验调参——确实靠试 🔶

学习率多少?模型多少层?GPT-4 该多大?这些确实大量靠实验。

2017 年 NeurIPS 大会上,Ali Rahimi 说深度学习像“炼金术”——有效,但不完全知道为什么。Meta 首席科学家 LeCun 回应:

“这不是炼金术,这是工程。莱特兄弟造出飞机的时候,空气动力学理论也不完善。你不需要完全理解,也能造出改变世界的东西。”

盖房子的类比

物理定律(万有引力、材料力学)→ 不可违反的硬约束。深度学习的数学基础在这一层。

建筑规范(承重墙多厚、钢筋间距)→ 前人经验凝结的标准。深度学习的工程原理在这一层。

建筑师审美(窗户多大、层高多少)→ 有道理,也有主观判断。深度学习的调参在这一层。

工程学的本质就是:理论不需要完美,先造出来能用,然后不断改进。

第四章:万能近似定理——联结主义的底气

三层结构中,最底层那个“万能近似定理”到底是什么?为什么它这么重要?

先理解“函数”

别被数学名词吓到。“函数”就是给一个输入,得到一个输出的规律:

输入

输出

一张照片

“这是猫” / “这是狗”

一句中文

一句英文翻译

你说的上半句话

AI 接的下半句

这些输入→输出的对应关系,在数学上都叫“函数”。

定理说了什么?

1989 年,数学家 George Cybenko 证明了:

一个神经网络,只要中间的神经元足够多,就可以逼近任意连续函数。

用大白话说:只要网络够大,理论上没有它学不会的规律。

定理的公式

N F(x) = Σ αᵢ · σ( wᵢᵀ · x + bᵢ ) i=1 对任意 ε > 0,存在 N,使得 | F(x) - f(x) | < ε

符号

含义

大白话

x

输入

喂给网络的数据

wᵢ

权重

这个神经元“关注”输入的哪些方面

bᵢ

偏置

调整神经元的“触发阈值”

σ

激活函数

引入非线性的“开关”

αᵢ

输出权重

这个神经元的“投票权重”

f(x)

目标函数

真实世界的规律

F(x)

网络输出

网络算出的近似结果

ε

最大误差

你想要多精确

N

神经元数量

“乐高积木”的数量

乐高积木的类比

任何形状——大象、汽车、城堡——都可以用足够多的乐高积木拼出来。

每个神经元就是一块小积木,单独看很简单。但足够多的简单零件组合在一起,可以表达任意复杂的东西。

定理说的就是:不管你要的 ε 多小(精度多高),都存在一个足够大的 N(积木够多),让网络达到这个精度。

关键的“但是”

定理保证了 ✅

定理没说 ❌

存在一组完美的参数

怎么找到那组参数

一层隐藏层理论上就够

一层实际上效率极低

对任意精度都有解

需要多少个神经元

需要多少训练数据

这就像空气动力学告诉莱特兄弟“人类理论上可以飞”——剩下的,是工程问题。

第五章:为什么用矩阵?为什么要激活函数?

现在到了最核心的问题:GPT 的引擎里为什么是矩阵乘法 + 激活函数?

矩阵 = 线性变换

矩阵是人类掌握得最透彻的数学工具,y = Wx + b。它不只是“简单”,而是:

✅ 有 200 年的线性代数理论支撑

✅ GPU 天生擅长矩阵乘法,计算极快

✅ 可以求导(训练必须算梯度)

✅ 可以一层接一层组合

但矩阵有个致命局限:它只能做“直来直去”的变换。一条直线经过矩阵变换后,永远还是直线。

更要命的是:纯线性叠加 = 永远是直线。

第一层: y₁ = 2x + 1 第二层: y₂ = 0.5 × y₁ - 0.5 合并后: y = 1.0x + 0.0 ← 还是一条直线! 不管你叠 100 层还是 1000 层,结果都一样。

光靠矩阵,神经网络只能画直线,永远拟合不了现实世界那些弯弯曲曲的规律。

ReLU:一行代码打破僵局

ReLU 可能是人类发明的最简单的非线性函数:

ReLU(x) = max(0, x) 就这一行。 x > 0 → 保持不变 x ≤ 0 → 变成 0

它在线性计算后引入了一个“折”。就这一个折,就打破了线性的封印。

“折”的威力

一个神经元 = 线性变换 + ReLU = 产生一个“折”。关键洞见:足够多的“折”可以拼出任何曲线。

下面的动图展示了这个过程。灰色曲线是目标函数,彩色线是神经网络的输出。随着神经元增加,折越来越多,逼近越来越精确:

▲ 每个神经元制造一个“折”,折越多,逼近任意曲线越精确

每个神经元是一个“可调节的折”。w 和 b 决定折的位置和角度,α 决定折的高度。足够多的折拼在一起,可以逼近任意曲线——这就是万能近似定理的直觉。

第六章:让机器自己学——训练过程动图

前面的折是人手动设计参数的。但真正的神经网络不需要人来调——机器通过梯度下降自己找到最优参数。

下面的动图展示了 PyTorch 训练的实际过程。四个不同大小的网络(4、16、64、256 个神经元)同时学习拟合同一条曲线:

▲ PyTorch 真实训练过程:从随机乱线到精确拟合

请注意几个关键现象:

一开始全是乱线 — 随机初始化的参数,网络什么都不知道

逐渐有形状了 — 梯度下降在不断调整参数,让网络靠近目标

N 越大,最终效果越好 — 神经元越多,“折”越多,逼近越精确

但 N=4 怎么调都不够用 — 积木太少,拼不出复杂的形状

这正是万能近似定理的实践验证:N 足够大 → 误差可以无限小。

纯线性 vs 加了激活函数

最后一张动图直接对比两条路线。左边是纯线性网络(没有激活函数),右边是加了 ReLU 的网络,两者同时增加层数:

▲ 左:纯线性永远是直线 | 右:加了 ReLU 后完美拟合

左边不管加多少层,永远是一条直线——这就是线性的宿命。

右边加了 ReLU 后,随着层数增加,逼近越来越精确。

矩阵负责“直来直去”的计算,ReLU 负责“拐弯”。一个拐弯不够,就用更多。足够多的拐弯叠在一起,可以拟合任何曲线——这就是神经网络的全部秘密。

第七章:从定理到 ChatGPT

万能近似定理是 1989 年证明的,ChatGPT 是 2022 年发布的。中间差了 33 年的工程攻关:

1989 万能近似定理 "理论上可以" │ │ 网络太小、数据太少、算力太弱 ▼ 2012 AlexNet "实际上可以了" │ │ 更深的网络、更多的数据、GPU 暴力计算 ▼ 2017 Transformer "可以做得非常好" │ │ 注意力机制、Scaling Law ▼ 2022 ChatGPT "好到普通人都能感受到"

ChatGPT 的核心结构(Transformer)本质上还是:

矩阵乘法 → 激活函数 → 矩阵乘法 → 激活函数 → ... 重复几十层,每层有数十亿个参数

只不过加了注意力机制、位置编码、Layer Normalization 等工程改进。但万变不离其宗:线性变换 + 非线性激活,这个基本结构从 1989 年到今天没有变过。

结语:70 年的回望

回到开头的问题:为什么矩阵和激活函数就能涌现智能?

因为:

万能近似定理 在数学上保证了——任何规律,神经网络都能学会(只要够大)

矩阵 提供了高效的线性计算基础——200 年的数学,GPU 可以暴力加速

激活函数 用最简单的方式打破了线性的封印——一行代码 max(0, x) 就够了

梯度下降 让机器能自己找到最优参数——不需要人手动调

四件事合在一起:理论保证 + 高效计算 + 非线性能力 + 自动学习 = 涌现智能的基础。

AI 走到今天,不是一拍脑袋的灵感,而是 70 年两条路线碰撞的结果:

符号主义教会了我们:让机器按规则做事——但规则写不完。联结主义教会了我们:让机器自己从数据中学习——而数学证明了这条路走得通。今天联结主义赢了。但工程学的精神贯穿始终——理论不需要完美,先造出来,能用,然后不断改进。莱特兄弟如此,深度学习也是如此。

本文动图由 PyTorch 实际训练生成每一帧都是真实的梯度下降过程,不是模拟动画

相关内容

热门资讯

黑科技教程!werplan外开... 黑科技教程!werplan外开挂,玖游卡五星辅助,操作辅助脚本(真是有挂)-哔哩哔哩1、上手简单,内...
值得注意的是!闽游十三水辅助(... 值得注意的是!闽游十三水辅助(辅助)好像是有辅助平台(有挂方略)-哔哩哔哩闽游十三水辅助是不是有人用...
此事备受玩家关注!红龙poke... 此事备受玩家关注!红龙poker辅助器免费观看,微信小程序指尖四川辅助器,方针辅助工具(有挂助手)-...
近年来!微信小程序边锋干瞪眼(... 近年来!微信小程序边锋干瞪眼(辅助)原来有挂辅助工具(有挂教学)-哔哩哔哩1、让任何用户在无需微信小...
2026版辅助挂!大菠萝免费辅... 2026版辅助挂!大菠萝免费辅助,蛮王大厅辅助,技法辅助app(有挂详情)-哔哩哔哩1、首先打开大菠...
在玩家背景下!潮汕掌上娱透视脚... 在玩家背景下!潮汕掌上娱透视脚本制作(辅助)总是是真的辅助器(有挂讲解)-哔哩哔哩1、完成潮汕掌上娱...
透视规律!约局吧德州真的存在透... 透视规律!约局吧德州真的存在透视吗,创思维激k辅助,积累辅助app(有挂详情)-哔哩哔哩1、完成约局...
反观!欢乐情怀挂(辅助)好像真... 反观!欢乐情怀挂(辅助)好像真的是有辅助app(有挂秘笈)-哔哩哔哩1、首先打开欢乐情怀挂辅助器下载...
近日!impoker辅助,吉祥... 近日!impoker辅助,吉祥填大坑攻略,方针辅助脚本(有挂细节)-哔哩哔哩1、用户打开应用后不用登...
今天下午!心悦游戏万能透视辅助... 今天下午!心悦游戏万能透视辅助器免费(辅助)一贯是真的辅助下载(有挂实锤)-哔哩哔哩1、下载好心悦游...