继续加码合成数据,英伟达数亿美元买下这家小公司
创始人
2025-03-20 20:40:56
0

来源:DeepTech深科技

近日,据科技新闻网站 Wired 援引消息人士的话报道,英伟达以九位数美元的价格收购了一家合成数据初创公司 Gretel。

(来源:Wired)

消息人士称,此次收购价格超过了 Gretel 最近一次 3.2 亿美元的估值(由此可知交易金额在 3.2-10 亿美元之间),不过具体的收购条款尚未公开。

与此同时,Gretel 公司的约 80 名员工将被并入英伟达,而该公司的技术将成为英伟达基于云的生成式 AI 服务套件的一部分,为开发者提供支持。

对于此次的收购交易,英伟达和 Gretel 公司的发言人均未做出回应。

基于模型微调生成合成数据

Gretel 公司成立于 2019 年,总部位于美国加利福尼亚州圣地亚哥,由 Ali Golshan、John Myers、Laszlo Bock 和 Alex Watson 联合创立,其中 Ali Golshan 担任公司 CEO。

据 Pitchbook 统计数据显示,在被英伟达收购之前,Gretel 已经获得了超过 6,700 万美元的投资,投资机构包括 Moonshots Capital、Greylock、Anthos Capital 等。

作为一家合成数据开发商,Gretel 为开发者提供了合成数据平台及 API,旨在帮助那些希望构建生成式 AI 模型但缺乏足够训练数据或对使用真实人物数据存在隐私顾虑的开发者。

(来源:Gretel)

技术层面,Gretel 采用对开源模型(比如 LLaMA、Stable Diffusion 等)进行针对性微调的技术路线,通过添加隐私保护层和差异化功能模块,生成满足特定行业需求的合成数据。比如,通过调整模型参数生成金融、医疗等领域的匿名化数据,解决敏感信息泄露风险‌。

其核心技术包含差分隐私、数据匿名化等模块,可在生成数据时自动剥离敏感信息,满足 HIPAA、GDPR 等法规要求‌。比如,在医疗数据生成中通过混淆患者身份信息生成可用于模型训练的非敏感数据集‌。

需要注意的是,Gretel 的技术路线并不依赖自研前沿模型,而是通过微调现有模型并叠加专有技术(比如访问权限控制、动态数据脱敏等)并将这些模型打包出售,进而降低技术开发成本,能够快速适配行业需求‌。

Gretel 支持生成文本、表格、图像等多种数据形式,并通过统计方法或生成式 AI 模拟真实数据特征,确保合成数据在质量与分布上与真实数据高度接近‌。

与此同时,Gretel 也提供 API 接口,让开发者自定义数据生成规则(比如模拟极端场景、调整数据分布等),提升生成数据的实用性和多样性‌。

通过收购补齐“AI 全栈”生态的数据层

AI 发展的三大要素是算力、算法和数据。大模型性能表现不断刷新全球认知的背后,除了算法的演进、算力的提升,数据(尤其是高质量数据)始终是绕不开的话题。很大程度上,没有海量数据的“投喂”就不会有大模型的出色表现。

然而,真实世界数据正在逐渐枯竭。正如 OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 此前所指出的,“算力在增长,但数据却没有增长,因为我们只有一个互联网。数据就好比化石燃料,而燃料终将耗尽。”

就在目前正在举办的英伟达 GTC 2025 开发者大会上,联合创始人兼 CEO 黄仁勋在主题演讲中也提到,行业在快速且成本有效地扩大 AI 规模方面所面临的挑战。“首先,数据问题,即从哪里以及如何创建必要的数据来训练 AI 模型;其次,模型架构;最后,扩展法则。”他说道。

(来源:英伟达)

合成数据,已被视为缓解 AI 行业数据稀缺问题的关键方案。

所谓合成数据(Synthetic Data),即由计算机生成的数据,可以通过模型和算法创建,用于补充或替代自现实世界中采集的真实数据。

借助合成数据,可以让构建 AI 模型所需的数据生成过程更加可扩展、劳动密集度更低,并且对于较小或资源较少的 AI 开发者来说更加易于获取。理论层面,合成数据可以创造近乎无限的 AI 训练数据来源。除此之外,隐私保护也是合成数据的一大优势,这对于医疗、银行以及政府机构等行业非常适用。

比如,在自动驾驶领域,‌合成数据可模拟复杂路况、极端天气等长尾场景,加速自动驾驶算法的迭代,减少实地测试成本。

再比如,一家医院希望构建一个用于追踪某种类型癌症的 AI 模型,但只有来自 1,000 名患者的少量数据集,那么就可以使用合成数据来补充数据集、消除偏差,并对真实人类的数据进行匿名化处理,从而实现更好的隐私保护。

看到这里,那英伟达为什么要收购这样一家公司呢?简单总结一句话就是:补齐自家“AI 全栈”生态的数据层。

Gretel 专注于为开发者提供合成数据平台及 API,通过微调开源模型并添加隐私保护功能,解决 AI 训练中真实数据不足或隐私敏感性问题‌。收购 Gretel 后有望补足英伟达在合成数据生成领域的布局,与其已有工具形成协同,完善从硬件到软件、数据系统的“AI 全栈”生态链‌。

通过整合 Gretel 的合成数据技术,英伟达可直接为开发者提供高质量训练数据,缓解大模型对真实数据的依赖,尤其适用于隐私敏感领域(比如金融、医疗等)‌,解决生成式 AI 数据瓶颈,并增强开发者服务能力。

要知道,英伟达近年来为开发者提供不少合成数据工具。比如,在 2022 年推出的合成数据工具 Omniverse Replicator,此次通过收购 Gretel,结合其技术平台能强化从 2D 到 3D、从单一模态到多模态的完整数据生成体系‌。

除此之外,Gretel 的 API 接口和微调能力可无缝接入英伟达的生成式 AI 服务套件,帮助开发者快速构建行业定制化模型,进而降低 AI 开发门槛‌。

随着真实世界数据日渐枯竭,大型科技公司也都在转向合成数据,包括 Meta、OpenAI、Anthropic 以及微软等巨头早已开始使用合成数据来训练 AI 模型。

比如,Meta 使用合成数据训练其先进的大语言模型 Llama 3,其中不少数据是由前一代模型 Llama 2 生成的;微软的 Phi-3 小语言模型部分基于合成数据进行训练。

随着 Meta、微软等巨头纷纷加速布局合成数据,英伟达通过收购 Gretel 进一步巩固技术优势,可为硬件(比如 H100/H200 GPU)和软件生态提供差异化竞争力‌。

参考资料:

1.https://www.wired.com/story/nvidia-gretel-acquisition-synthetic-training-data/

2.https://gretel.ai/

3.https://gretel.ai/blog

4.https://gretel.ai/navigator

5.https://gretel.ai/tabular-fine-tuning

6.https://gretel.ai/solutions/safe-data-sharing

7.https://gretel.ai/solutions/improve-ml-robustness

8.https://gretel.ai/solutions/power-generative-ai

运营/排版:何晨龙

相关内容

热门资讯

2026年网站建设/微信小程序... 图片说明:2026年软件开发行业概览(来源:网络) 关键要点 2026年国内软件开发市场规模预...
上线仅数月,亚马逊仓库机器人“... 来源:市场资讯 (来源:IT之家) IT之家 2 月 19 日消息,亚马逊在其仓库中部署了数十万机器...
【科技资讯】AI社交打通中国A... 马年新春,在阖家团圆、万象更新的氛围中, 中国人工智能迎来了一场别开生面的“开门红”:腾讯、阿里、字...
金苏立电气取得隔离开关专利,具... 国家知识产权局信息显示,浙江金苏立电气有限公司取得一项名为“一种隔离开关”的专利,授权公告号CN22...
罗永浩与锤子手机:天生骄傲是真... 讲个道理,对锤子手机来讲,在旁人眼里它真的不是什么主流品牌,最多说句好听的话,它就是一个名副其实"小...
华擎发布AM5主板最新4.10... 来源:市场资讯 (来源:IT之家) IT之家 2 月 14 日消息,自 2025 年初起,就有部分 ...
刚刚,李飞飞融资70亿,黄仁勋... 智东西 作者 | 陈骏达 编辑 | 心缘 智东西2月19日报道,昨天,由斯坦福大学教授、“AI教母”...
信也科技(FINV.US)2月... 截至2026年2月18日(美国东部时间)收盘,信也科技(FINV.US)报收于5.79美元/股,上涨...
【微特稿】称中国产品为自研成果... 【新华社微特稿】在印度人工智能影响力峰会上,一所印度大学将一款中国企业研制的机器狗称为“自主研发成果...
人工智能时代或将削减对招聘人员... 来源:环球市场播报 人工智能可能很快自动化处理候选人与雇主的匹配工作,从而减少对招聘人员的需求。 人...