为什么需要移除LPO光模块链路中的DSP芯片?
创始人
2026-01-27 01:00:36
0

在AI算力爆发式增长的时代,数据中心正面临一场静默的能源危机。当业界聚焦于GPU的百瓦级功耗时,一个被忽视的"功耗黑洞"正在网络层悄然吞噬着宝贵的电力资源——光模块中的DSP芯片。在400G高速光模块中,DSP芯片功耗可达4W,占模块总功耗的50%以上;在800G光模块中,搭载DSP的方案功耗高达16-18W,而整个模块的功耗预算正逼近散热极限。随着AI服务器集群规模从万卡向十万卡、百万卡演进,光模块功耗将成为制约数据中心扩张的硬约束。

这一困境催生了LPO技术的诞生。LPO的核心创新在于彻底移除光模块内部的DSP芯片,将信号处理功能转移至交换机ASIC的SerDes中,通过线性模拟驱动实现电光信号的直接转换。这一架构变革不仅是对传统光模块设计的颠覆,更是对数据中心能效瓶颈的精准破局。

DSP芯片的功能定位与功耗困境

DSP在光模块中的核心作用

在传统高速光模块中,DSP芯片扮演着"信号修复大师"的角色。当电信号从交换机ASIC通过PCB走线传输至光模块时,信号完整性已遭受严重劣化:高频衰减、码间干扰、时钟抖动等问题叠加,使得原始信号难以直接驱动激光器或光电探测器。

DSP芯片通过数字均衡、时钟恢复、前向纠错和PAM4编解码等功能解决这些问题。它采用FFE前馈均衡、DFE判决反馈均衡等算法补偿信道损耗,从接收信号中提取时钟信息实现位同步,通过Reed-Solomon或LDPC编码纠正传输误码,并将二进制数据映射为四电平脉冲幅度调制信号。这些功能使得光模块能够容忍高达30-35dB的链路损耗,支持10公里以上的传输距离,并实现多厂商设备的互联互通。

功耗危机的量化分析

然而,这些强大功能的代价是惊人的功耗。以400G光模块为例,7nm DSP芯片功耗约4W,占模块总功耗的50%-57%。800G DSP方案功耗达16-18W,其中DSP占比超过60%。1.6T DSP方案功耗预计超过25W,已接近风冷散热极限。

在超大规模数据中心场景中,光模块的累计功耗触目惊心。以某头部云服务商的万卡AI集群为例,光模块总功耗突破15MW,相当于3000个普通家庭的年用电量。随着AI服务器集群规模持续扩张,光模块功耗将成为制约数据中心发展的硬约束。

延迟累积的性能瓶颈

除了功耗,DSP处理还引入了显著的延迟。传统DSP光模块的信号处理路径中,每个环节的DSP处理带来2-3ns的额外延迟,端到端累积可达80-100ns。在AI训练场景中,频繁的All-Reduce集体通信操作对延迟极其敏感。研究表明,网络延迟每增加1微秒,大规模AI训练的整体效率可能下降0.5%-1%。当延迟累积达到微秒级时,GPU集群的计算效率将遭受实质性损害。

成本与供应链风险

从经济维度看,DSP芯片是光模块BOM成本的重要组成部分。在400G光模块中,DSP占BOM成本的20%-40%。高端DSP芯片单价可达数十美元,且供应商高度集中,主要来自Broadcom、Marvell等少数厂商。7nm和5nm先进制程的产能紧张,使得DSP芯片交付周期长达26-52周,供应链风险不容忽视。

这些因素共同构成了移除DSP芯片的原始动力——不是否定DSP的技术价值,而是在特定场景下寻求更优的能效比和成本结构。

LPO技术的架构创新与工作原理

LPO的核心架构变革

LPO技术的本质是一种"功能转移"架构:将原本由光模块DSP承担的信号处理任务,迁移至交换机ASIC的SerDes中完成,光模块仅保留高线性度的模拟前端电路。

LPO模块的简化架构包括高线性度激光驱动器,集成CTLE连续时间线性均衡;高线性度跨阻放大器,集成EQ均衡功能;完全无DSP、无CDR,依赖主机侧ASIC SerDes进行数字信号处理。这种架构成立的技术前提是先进CMOS工艺使得交换机ASIC的SerDes具备强大的信号处理能力,其线性度和抗噪性能足以补偿短距离链路的信号损伤。

线性直驱的技术机理

LPO的"线性直驱"体现在信号传输的透明性。传统DSP方案的信号路径中,ASIC SerDes经过弱均衡后通过PCB走线,再经过光模块DSP进行强均衡和时钟恢复,最后到达驱动器和激光器,整个过程涉及复杂的数字处理,带来高功耗和高延迟。

LPO方案的信号路径则大为简化。ASIC SerDes进行强均衡后直接通过PCB走线,经过短距损耗可控的传输后,由线性驱动器进行弱均衡即可驱动激光器。整个过程采用模拟直驱方式,实现低功耗和低延迟。关键区别在于LPO要求主机ASIC SerDes具备更强的发射端FFE前馈均衡和接收端DFE/CTLE能力,以补偿移除DSP后的功能缺失。

关键技术组件解析

CTLE连续时间线性均衡器是LPO模块中的核心模拟电路,通过在频域上提升高频分量来补偿信道损耗。与DSP的数字均衡不同,CTLE是模拟电路,功耗极低,但均衡能力有限,通常只能补偿5-10dB的损耗。

高线性度TIA和Driver是LPO的另一关键组件。LPO要求TIA和Driver具备极高的线性度,以确保PAM4四电平信号的完整性。任何非线性失真都会导致信号眼图闭合,增加误码率,这要求光器件与电芯片的精密匹配和校准。

LPO仍采用PAM4调制以提升频谱效率,但依赖主机侧ASIC完成PAM4编解码。同时FEC功能也转移至主机侧,通常采用轻量级FEC或直方图FEC以平衡纠错能力与延迟。

移除DSP的三大核心价值

功耗革命:从"电老虎"到"节能标兵"

移除DSP带来的功耗降低是LPO最直观的价值。实测数据显示,400G DR4光模块的DSP方案功耗为12W,LPO方案功耗降至6-8W,降幅达33%-50%。800G DR8光模块的DSP方案功耗为16-18W,LPO方案降至8-10W,降幅44%-50%。800G硅光方案的功耗从13W以上降至4W以下,降幅接近70%。1.6T OSFP光模块的功耗从20W以上降至10W以下,降幅超过50%。

以Meta的Grand Teton AI架构为例,采用LPO方案后,单个机架的光模块功耗从3.6kW降至1.8kW,每年节省电费超过数万美元。在十万卡级AI集群中,这种节省将放大至兆瓦级,直接降低数据中心的PUE电能使用效率和碳排放。

功耗降低还带来连锁效益。模块工作温度降低10-15°C,风冷设计即可满足需求,可靠性也随之提升。温度每降低10°C,光器件失效率下降约50%。低功耗还允许更密集的端口布局,1U交换机可支持36个800G端口。

延迟优化:满足AI训练的实时性需求

LPO的延迟优势源于信号处理路径的缩短。DSP方案延迟约80-100ns,DSP处理占主导;LPO方案延迟小于1ns,采用纯模拟传输。这种数量级的延迟降低对AI训练至关重要。

在分布式深度学习中的All-Reduce操作,每个迭代步骤都需要频繁的梯度同步。网络延迟的累积会显著拉长训练时间,增加GPU空闲等待。LPO的亚纳秒级延迟使得GPU集群的通信效率最大化,实测可提升AI训练吞吐量10%-15%。对于高频交易、实时渲染等延迟敏感型应用,LPO同样是不可替代的选择,这些场景要求端到端延迟控制在微秒级。

成本重构:BOM优化与供应链简化

移除DSP直接降低了光模块的物料成本。省去占成本20%-40%的DSP芯片,整体成本降低20%-40%。PCB设计得以简化,无需为DSP设计复杂的多层PCB走线。测试流程也相应简化,省去DSP的固件加载和校准流程。供应链风险降低,减少对单一DSP供应商的依赖。

更重要的是,LPO保留了可插拔形态,相比CPO共封装光学的固定封装,LPO支持热插拔、独立升级和多供应商选择,大幅降低了运维复杂度和总体拥有成本。

技术边界与应用场景

LPO的能力边界

移除DSP并非没有代价。LPO的技术局限主要体现在传输距离受限。LPO的链路预算通常在10-15dB,适用距离为多模光纤100米以内,单模光纤500米至2公里。超过此距离,信号劣化超出线性均衡的补偿能力,误码率将急剧上升。因此LPO不适用于数据中心互联、城域网骨干网传输,以及跨园区或跨城市的广域连接。

互操作性挑战也是LPO的局限之一。LPO要求主机ASIC SerDes与光模块的精密匹配,这带来生态系统锁定问题,特定LPO模块需搭配特定交换机芯片。多厂商互通困难,不同厂商的SerDes性能差异可能导致兼容性问题。标准化滞后,IEEE尚未发布LPO专用标准,目前主要依赖OIF光互联论坛的规范。

在200G每通道速率用于1.6T模块下,LPO的可行性尚未得到大规模验证。更高频率的信号对PCB走线、连接器、光器件的线性度提出了更严苛的要求,目前业界对此仍存在争议。

最佳应用场景

基于上述边界,LPO最适合AI和HPC集群内部互联场景。包括机架内服务器与ToR交换机之间,距离小于5米;机架间同一集群内的叶脊连接,距离小于100米;以及GPU直连场景如DGX等AI服务器内部GPU间的高速互联。这些场景距离短、链路质量可控,且对延迟和功耗极度敏感,是LPO的"甜蜜点"。

数据中心叶脊架构也是LPO的理想应用场景。叶交换机与脊交换机的距离通常在100米至2公里范围内,且链路环境相对统一,LPO可在此场景下大规模部署,显著降低网络层功耗。

存储网络中的NVMe over Fabrics协议互联对延迟要求苛刻,LPO的低延迟特性可最大化存储性能,支持更多存储节点的大规模扩展。

LPO与DSP、CPO的技术竞合

LPO与DSP的互补关系

LPO不会完全取代DSP光模块,两者将长期共存。DSP光模块适用于10公里以上的传输距离,功耗较高但互操作性强,适合DCI、城域网和长距传输。LPO光模块适用于2公里以内的传输距离,功耗低、延迟低,适合AI集群和数据中心内部。这种分工类似于公路运输与铁路运输,DSP负责长距离复杂环境的干线运输,LPO专注于短距离高效率的最后一公里。

LPO与CPO的演进路径之争

CPO将光引擎与ASIC芯片封装在一起,进一步缩短电互连距离,功耗可比LPO再降40%。但CPO的代价是不可热插拔,光引擎与ASIC固定封装,故障需更换整板。生态系统封闭,交换机、芯片、光模块深度绑定,多厂商选择受限。维护成本高,现场维护复杂,宕机风险增加。

LPO则保留了可插拔的灵活性,是当前800G和1.6T时代最具落地潜力的务实选择,而CPO更适合3.2T及更高速率的远期场景。

LRO折中方案

LRO是LPO的变体,仅在接收端移除DSP,发射端保留轻量级DSP。这种半去DSP设计功耗降低约30%-40%,低于LPO的50%,但兼容性提升,发射端DSP确保与现有系统的互通,适用距离可扩展至5-10公里。LRO适合对功耗敏感但需一定互通性的场景,是向LPO过渡的中间形态。

产业进展与未来演进

商用化里程碑

2024至2025年,LPO技术从实验室走向规模商用。Meta在Grand Teton AI架构中商用400G和800G LPO模块。中际旭创800G LPO模块批量出货,硅光方案占比持续提升。华工正源发布1.6T OSFP LPO模块,功耗低于10W。芯速联800G OSFP LPO硅光模块亮相OFC 2025,功耗降低超50%。据LightCounting预测,2025年LPO在800G市场的渗透率将达15%-20%,2026年提升至30%以上。

技术演进方向

随着单通道速率提升至200Gbps,LPO面临更大挑战。行业正通过TFLN薄膜铌酸锂调制器突破,其3dB带宽达108GHz,支持200G每通道。先进封装技术如2.5D和3D封装缩短电互连距离。智能均衡利用AI算法优化CTLE和DFE参数,提升补偿能力。

未来可能出现可插拔CPO形态,光引擎与ASIC共封装,但通过光学连接器实现可插拔,兼顾性能与灵活性。IEEE 802.3dj正在制定800G和1.6T标准,OIF的CEI-224G规范将为200G每通道LPO提供技术基础,预计2026至2027年LPO将获得更完善的标准支持。

结论:移除DSP的技术哲学

移除LPO光模块中的DSP芯片,不是对数字信号处理技术的否定,而是对"功能下沉"架构哲学的践行。在摩尔定律放缓、功耗墙凸显的背景下,将通用计算转移至更高效的主机ASIC,保留专用模拟电路,是系统级优化的必然选择。

这一变革的三重价值清晰可辨。能效维度上功耗降低50%至70%,直接缓解数据中心的能源危机。性能维度上延迟从百纳秒级降至亚纳秒级,释放AI集群的计算潜力。经济维度上BOM成本降低20%至40%,供应链风险分散。

当然,LPO并非万能药。其传输距离受限、互操作性挑战、标准化滞后等问题,决定了它将与DSP方案长期共存,各自服务最适合的场景。正如业界共识,DSP是全能选手,LPO是短跑冠军,CPO是未来方向。

在AI算力军备竞赛进入白热化的2025年,LPO技术的成熟商用标志着光互连领域从"带宽优先"向"能效优先"的战略转型。移除DSP芯片,不仅是电路设计的简化,更是对整个数据中心能效架构的重新思考。当每一瓦特电力都变得珍贵,当每一纳秒延迟都影响竞争力,LPO所代表的"少即是多"哲学,将成为下一代光互连技术的核心信条。

相关内容

热门资讯

被马化腾指责外挂方式“不负责任... 来源:界面新闻 腾讯创始人马化腾“罕见”点评豆包手机后,豆包手机助手就安全隐私问题再次回应。 界面新...
工作手机是什么?常见应用场景有... 工作手机是企业统一采购配发、“专用于职场场景”的智能手机,属于企业资产,核心特征是“企业所有、工作专...
中移软件取得日志处理方法专利 国家知识产权局信息显示,中移(苏州)软件技术有限公司、中国移动通信集团有限公司取得一项名为“一种日志...
天津图书馆数字古籍安“新家” (来源:天津日报) 转自:天津日报 本报讯(记者 张帆)古籍是民族记忆的活化石,是历史文脉的“基因库...
机械星球召开出海新机遇分享大会... 当国内工程机械行业内卷加剧,“出海”正在从“可选项”变成“必答题”。但面对陌生的海外市场,中小商户又...
启东边检助力 “PSV系列”首... 本报讯(通讯员 郭鑫翔 记者 李多闻)1月25日,启东边检站主动靠前、精准服务,高效完成润邦码头“丽...
Asahi Linux新里程碑... IT之家 1 月 27 日消息,科技媒体 Appleinsider 今天(1 月 27 日)发布博文...
爆料!ChatGPT广告报价居... 1月27日消息,据The Information最新爆料,OpenAI正在筹备即将上线的广告服务。 ...
和润达取得冷却装置专利实现集中... 国家知识产权局信息显示,深圳和润达科技有限公司取得一项名为“一种冷却装置”的专利,授权公告号CN22...
原创 “... 导语:能否成为又一只千亿市值股? 国产云端AI芯片厂商燧原科技,正式叩响科创板大门。 近日,上海燧原...