编辑 | 刘杨楠
2006 年,英国数学家克莱夫·洪比一句“数据是新石油”的比喻,成为无数大数据企业自证合理性的“护身符”。
石油需炼化,数据亦需提纯,这仍是真理。但洪比没说的是——石油越烧越少,数据却越用越多;一桶原油只能烧一次,而一条数据被 AI 点燃后,会不断裂变衍生新的信息、新的数据。
过去三年,我们亲历了这场 GenAI 催化的数据裂变。
GenAI 让“数据 - 模型 - 场景”的价值闭环提速百倍。数据不再只是企业决策的辅助,而是主导企业决策的核心资产。这是一次看似微小的“蝴蝶振翅”,但随之而来的,或许是整个大数据产业格局被重构。
资本的嗅觉一如既往的敏锐。2024 年末,数据智能公司 Databricks 拿下 100 亿美元融资,将“Data+AI”的理念推向台前,并赋予其完整的产品内涵。
今年,热情传递到中国市场。近期,国内官方代表之一上海数据交易所,交出了一份半年 30 亿元数据交易额的答卷,并联合产业伙伴成立区块链跨链实验室,明确在未来三年内建起 1000 座“数纽中心”。这是数据流通第一次被真正当做“基础设施”,像电网、高铁一样,有了自己的“三年规划”。
于是,我们可以看到,在过去半年,云厂商、运营商、系统集成商,甚至老牌 ERP 巨头,只要有大数据业务的厂商,几乎都把 “Data+AI”写在未来战略规划最显眼的位置。
最新出牌的,是阿里云。
7 月 23 日,阿里云在飞天发布时刻上正式公布了大数据平台 ODPS 的“Data+AI”战略升级,瞄准当前 GenAI 时代企业对大数据平台的最新需求,升级了整个 ODPS 产品家族,涵盖 ODPS-MaxCompute、ODPS-Hologres、ODPS-DataWorks 等核心产品。
阿里云 ODPS 此次升级不仅给“Data+AI”热潮添了一把火,还释放了一个更深层的信号——在 AI 时代,大数据平台,正在从以往高效的“数据处理工具集”,演变为一个更底层的“数据基础设施”。而 ODPS 已经完成转型。
“Data+AI”需要新基建
“Data+AI”之所以成为大势所趋,是因为今天企业面临的“数据困境”,远比 GenAI 出现前更复杂,也对底层的数据平台有更严苛的要求——一方面,数字化转型遗留的“数据孤岛”等历史问题尚未根除;另一方面,GenAI 又带来了对多模态数据处理、实时性、算力以及治理能力的全新挑战。
旧疾未愈,又添新症。以往“缺啥补啥”的工具思维正逐渐失效,业界开始呼唤一种更具全局思维、更全能的数据基础设施。
回看过去十余年的数字化转型浪潮,“数据孤岛”是一大顽疾,也给企业造成一系列恶劣的连锁反应:决策者无法获得完整的业务视图,导致决策失准;跨部门协作效率低下,错失市场良机;数据冗余和不一致性,严重影响了数据分析的准确性等等。
十几年前,电商业务快速发展的阿里巴巴也曾深受“数据孤岛”所困。因此,阿里在 2009 年启动“飞天”项目后,便同步布局大数据业务。此后十几年,阿里云针对数据生命周期的不同环节,提供了一系列专业化的工具和平台。
例如,为解决海量数据的离线存储和计算问题,阿里云自研了 ODPS 平台;当企业对数据分析的实时性要求越来越高时,阿里云推出实时数仓 Hologres,能支持 PB 级数据高并发、低延时的交互式分析。
随着业务复杂度的提升,仅仅有强大的计算引擎已然不够。于是,阿里云又推出一站式大数据开发治理平台 DataWorks。它像一个智能化的“数据工厂”,提供了从数据集成、数据开发、任务运维到数据治理的全链路能力,解决数据生产过程中的效率和规范性问题。
阿里云还陆续推出了数据湖构建(DLF)、E-MapReduce 等产品,共同构成了一个覆盖离线、实时、数据湖等多种场景的大数据解决方案矩阵。这些工具和方案根据不同的企业需求彼此组合,帮助无数企业解决了特定的数据难题。例如,在大数据治理方面,极氪基于MaxCompute+DataWorks等阿里云核心产品构建的全托管大数据平台,提供稳定可靠的SLA保障,减轻运维成本。阿里云的Flink+Hologres大数据计算引擎构建的实时数仓也带来数倍的性能提升。
然而,GenAI 的到来,彻底改变了游戏规则。它对数据的需求不再是单一维度的“大”或“快”,而是呈现出前所未有的复杂性和系统性。以至于有观点认为,如果企业的数据没有为 GenAI 做好准备,那么企业自身也没有为 GenAI 做好准备。
这种“准备”意味着什么?
首先,是多模态数据的融合挑战。GenAI 应用需要同时理解和处理文本、图像、音视频等多种非结构化数据。这要求数据平台不仅能存储这些异构数据,更要能进行高效的跨模态对齐、融合与处理,而这恰恰是传统以结构化数据为核心的数仓或单一工具的短板。
其次,是数据处理与 AI 模型训练的无缝衔接。以检索增强生成(RAG)为例,其效果高度依赖于能否快速、准确地从海量知识库中检索到相关信息,并将其作为上下文喂给大模型。这个过程涉及数据清洗、向量化、索引构建、实时检索和模型推理等多个环节。如果这些环节分布在不同的技术组件上,数据需要在多个系统间“长途跋涉”,由此产生的延迟、成本和数据一致性问题,从而制约 AI 应用的性能和价值。
最后,是全链路的治理与安全。当数据和 AI 深度绑定,数据治理的范畴也从传统的质量、安全扩展到了模型的偏见、公平性和可解释性等伦理维度。此外,AI 应用追求数据的实时、快速流动,以实现敏捷决策和智能响应。然而,数据的每一次流动都伴随着安全与合规的风险。这形成了一个“信任悖论”:一方面,数据必须流动才能创造价值;另一方面,不受控的流动可能导致灾难性后果。
上述挑战环环相扣,构成了一个复杂的系统性难题。而要在一个割裂的技术栈中,实现对数据从源头到 AI 应用输出的全链路追踪、审计和管控,几乎是不可能完成的任务。
企业需要的不再是一个个独立的“瑞士军刀”,而是一个能够将数据处理、模型训练与部署、智能应用开发和全链路治理融为一体的、真正的 Data+AI 一体化平台。
这也是在 AI 时代,大数据平台必须向“数据基础设施”转型的核心原因——它必须像电网、高铁一样,成为稳定、可靠且能无缝集成各种功能的底层支撑。
阿里云最新交卷
在 Data+AI 已成行业共识的今天,为什么我们要把阿里云 ODPS 此次更新单独拿出来看?
关键在于,这并非一次简单的功能叠加,而是从底层架构上重新定义“数据”与“AI”关系。过去,数据平台和 AI 平台往往是两个独立的体系,数据工程师负责准备数据,算法工程师负责训练模型,二者之间通过 ETL 或 API 进行衔接。这种模式在 GenAI 时代显得越发笨拙和低效。
而 MaxCompute 此次升级,则试图将 AI 能力嵌入到数据平台中。AI 不再是数据处理流程下游的“消费者”,而是和数据存储、计算、治理环节相互融合,最大程度消除数据在 AI 全链路流通中的割裂感和延迟感。
这种设计思路,恰恰符合 AI 时代数据基础设施的底层逻辑。
一个合格的基础设施,首先要有一个统一的承载底座。阿里云 ODPS 则以对象存储 OSS 为统一数据湖底座,结合数据湖构建(DLF)进行统一的元数据管理,解决了结构化、半结构化和非结构化数据的统一存储和治理难题。MaxCompute 和 Hologres 则在此基础上构建了离线实时一体化能力,不仅仅让湖与仓之间实现了数据的自由流动,还让数据计算的时效性与成本实现了平衡。
这就好比给企业数据铺了一层“地基”,让不同类型的数据都能在同一片土地上交互,避免了数据冗余和迁移成本。
其次,基础设施还要有高效、一体化的数据处理能力。针对数据处理与 AI 模型训练无缝衔接的诉求,MaxCompute 此次推出了新一代分布式计算框架 MaxFrame。它并非简单的 Python SDK,而是一个与社区 Pandas 接口兼容的原生 Python 引擎,可以直接在 ODPS 的海量数据上进行分布式计算。
这意味着,从数据预处理到 AI 模型训练,整个流程都可以在一个统一的框架内完成。同时,人工智能平台 PAI(Platform for AI)可以直接在 MaxCompute 的数据上进行模型训练和部署,实现“存算训”一体化。
这并非纸上谈兵。架构创新带来的优势在具体的业务场景中已有所体现。在为通义多模态大模型进行数据预处理时,正是利用 MaxFrame,将千万级的视频文件在几十小时内高效完成抽帧,效率相比传统方案提升数倍;在某人工智能实验室的海量 Web 文本去重场景中,采用 MaxFrame 后,效率比用户自建 IDC 方案提升 200%。
在 MaxFrame 能力基础上,MaxCompute 提供了 Object Table 等表类型,可以直接以表的形式管理和处理 OSS 上的图片、音视频等非结构化数据,并通过 MaxFrame 进行高效的分布式处理,从而解决了前文提到的多模态数据处理问题。除此之外, Hologres 在高性能实时数据分析的基础上,提供了面向多模态数据和 RAG 场景的检索增强特性,与 Deepseek/ 通义等大模型结合构建企业级 RAG 知识库,减少大模型问答幻觉,提升知识更新与问答速度
最后,任何基础设施都离不开一个高效的“指挥中心”,DataWorks 就在 ODPS 的技术体系中扮演了这个角色。它提供了千万级任务调度能力和主动式数据资产治理服务,保障 Data+AI 一体化开发的高效稳定运行。
它不仅支持 MaxCompute、Hologres、EMR、PAI 等多种计算引擎的混编任务流,还集成了智能 Copilot 助手,能通过自然语言生成 SQL,将数据开发与分析效率提升 30% 以上。此外,DataWorks Agent 则能够让用户通过自然语言完成建表、任务运维、数据集成等复杂任务,降低了数据开发的门槛。
通过解析这几项核心能力的升级,我们可以看到,阿里云已经构建了一个从数据到智能的闭环——数据在统一的湖仓底座上被高效治理和处理,无缝流转至 AI 平台进行模型训练与推理,最终通过智能应用对外提供服务,而应用产生的新数据又回流至平台,形成真正的“数据飞轮”。
这个飞轮的形成,意味着阿里云 ODPS 已经从一个“大数据工具组合”转型为“AI 时代的数据基础设施”。
对于那些挣扎在数据准备、模型训练,以及 AI 应用开发之间企业而言,这种架构层面的演进,提供了一种“一石多鸟”的破局方向。企业无需在多家技术厂商间反复游走,只需把把业务逻辑建立在新的基础设施上,就能按需解决整个数据生命周期的难题。
当然,这只是理想状况下的结果。
何时抵达 Data+AI 终局?
今天的“Data+AI”仍然处在概念层面,要真正让 ODPS 这样的“数据基础设施”变成企业标配,仍然困难重重。
毕竟,企业在拥抱 Data+AI 时面临的最大挑战,往往并非技术本身,而是组织文化和人才储备。根据德勤的调查,许多 AI 项目失败的根源在于数据管理能力的不足,而这背后是数据文化的缺失。因此,要成功转型,企业必须培育一种“数据驱动决策”的文化,让数据素养成为从高管到一线员工的必备技能。
与此同时,AI 时代的人才缺口也日益凸显。企业需要的不再是单纯的数据工程师或算法专家,而是既懂技术、又懂业务,并能将两者结合创造价值的复合型人才。
因此,基础设施层面的技术突破,只是 Data+AI 趋势变革的第一步。
目前,虽然“Data+AI”的技术边界仍然模糊,但从企业核心需求以及头部厂商阿里云 ODPS 的最新升级中,AI 时代数据基础设施的面貌已经逐渐清晰,我们可以勾勒出以下关键特征:
“统一”:平台必须能够打破物理和逻辑上的数据壁垒,实现对多云、本地、多模态数据的统一管理、统一元数据和统一治理。
“智能”:AI 能力将深度融入数据全生命周期。从 AI 辅助的数据开发(如通义灵码)、智能化的数据治理,到 AI 驱动的业务洞察,平台本身将成为一个“会思考”的助手。
“开放”:为避免厂商锁定,平台必须建立在开放标准和协议之上,如支持开源的湖仓格式(Iceberg、Hudi),并提供丰富的 API 生态,允许企业灵活集成第三方工具和应用。
在这些核心特征下,“Data+AI”真正的竞争焦点,正从“谁的模型更强大”,转向“谁能构建出更好用的数据基础设施,帮助企业释放数据价值”。
在这场平台之战中,以阿里云为代表的云厂商无疑占据了先发优势。
云厂商拥有从 IaaS 到 PaaS,再到 SaaS 的完整技术栈,使企业能够将分析、人工智能和机器学习直接集成到其数据管道中。未来,云不再是可有可无的技术选择,而是企业部署 AI 必备的业务支撑。因此,AI 时代企业对大数据平台的需求变化,也让云计算也迎来一场“价值重估”。
一旦一家企业选择在某个云平台上构建其核心的数据处理、分析和 AI 决策系统,其迁移成本将不再是简单的服务器或数据库迁移,而会涉及到整套业务系统的移植。
这种由一体化平台所构建的“客户粘性”,将成为云厂商在 AI 时代最深、最宽的护城河。
但 Data+AI 并非只是云厂商的独角戏。国外已经出现诸如 Databricks、Snowflake 等专注于数据领域的“专业型选手”,它们以其极致的产品体验和开放的生态策略,同样赢得了大量忠实用户。
无论如何,在 Data+AI 的复杂体系中,没有任何一家企业能够“包打天下”,构建一个开放、共赢的生态系统,成为所有玩家的必然选择。
对于所有企业而言,看懂这场“工具”到“新基建”的范式转移,选择正确的合作伙伴,将是未来数年内最重要的战略决策之一。