聚焦WAIC 2025|数据标注化身AI燃料厂 赋能各类AI+场景落地
创始人
2025-07-30 05:20:25
0

(记者 张苏慧)7月26日-29日,WAIC 2025在上海举行。在中国电信展台上,“方言语音高质量数据集”吸引了不少参观者驻足——当人们享受着智能手机精准的语音识别、惊叹于自动驾驶汽车在复杂路况中的从容表现、或是依赖电商平台“猜你喜欢”的精准推送时,或许未曾想到,这些人工智能(AI)应用背后,正依赖着一个庞大而基础性的产业支撑,这正是数据标注。

图为中国电信展台展示的“方言语音高质量数据集”

数据制约大模型发展

当前人工智能产业正陷入一场严峻的数据饥渴危机——斯坦福AI指数最新报告显示,全球AI数据需求正以每年230%的指数级速度激增,而大模型参数规模更保持着每12个月增长10倍的惊人速度。这种“数据饥渴”背后暗藏隐患:若没有高质量数据的持续“喂养”,再先进的算法也终将沦为无米之炊。更严峻的是,数据标注成本已占AI模型训练总成本的35%以上,超越算力投入成为最大开销项。OpenAI内部测算表明,GPT-4训练消耗的10万亿token中,超过60%需经过人工标注处理,这意味着每训练一个前沿大模型,背后都是海量人工标注资源的支撑。

因此,在国内,数据标注产业呈现爆发式增长。IDC预测2025年中国AI数据服务市场规模将突破120亿元,年复合增长率高达47.2%。国家数据局副局长余英在2025数博会上明确表示:数据,特别是高质量、多模态、精标注的数据,是人工智能发展的不竭动力,并宣布构建数据标注+高质量数据集+模型+应用场景+市场化价值化闭环生态的战略方向。

高质量数据集是技术创新燃料

当前,虽然业内专家普遍认为,数据资源的短缺成为制约大模型持续创新的核心瓶颈,但一个不容忽视的现实是,大多数行业大模型正面临着训练数据质量缺陷的重大挑战。正如蚂蚁集团CTO何征宇在OceanBase开发者大会上提出,数据的广度与深度直接限制了大模型能力的天花板。面对这一行业痛点,中国电信深刻认识到“无高质量数据,则无强人工智能”的发展规律,因此在打造高质量数据集下足了功夫。

此次中国电信展台展出的“方言语音高质量数据集”依托中国电信发布的星海•多模态数据标注平台,通过AI辅助自动化标注技术,准确率超过92%,效率相比人工提升了17倍。依托这一技术,可以构建50万小时的高质量方言数据集,打造方言数据模型,赋能各种智能热线,使其能听得懂不同区域、不同民族的群众语言。

此外,中国电信四川公司与成都市国家数据标注基地牧山园区合作,从地方应用痛点出发,利用已采集的19个地市方言语音大数据,成功构建了四川方言高质量数据集,并基于此训练出四川方言大模型。支撑落地政务服务热线、医疗问诊、文化导引、助农直播等场景,真正“听懂”群众需要,提升座席人员工作效率超20%,该项目入选GSMA全球移动通信系统协会运营商实践AI大模型赋能垂直行业标杆案例。

从国家战略层面看,数据标注产业正迎来政策红利期。国家数据局正在指导合肥、成都等7个城市建设数据标注基地,通过先行先试探索产业发展的最佳路径。数据显示,截至今年上半年,这7个数据标注基地已累计建设数据集524个,服务大模型163个,初步形成了规模化发展态势。在这一国家战略布局中,中国电信积极参与国家级数据标注基地建设,目前已成功在成都、沈阳、保定3个标注基地实现技术落地。以河北保定项目为例,中国电信保定分公司联合保定市数据局、高新区、中电信人工智能科技(北京)有限公司,在技术创新、行业赋能、产业培育、人才培养、基地运营等五个维度展开全方位合作。项目团队围绕大规模多模态数据,打造智能数据标注生成管理平台,实现数据从采集到模型部署的全流程自动化,大幅提升数据集生产效率,降低AI模型训练门槛。

值得一提的是,中国电信的《多模态数据自动化标注与增强平台》和《视觉大模型自动标注一站式生产运营》成功入选国家数据局数据标注优秀案例,不仅展现了中国电信在数据标注技术创新和应用落地方面的领先实力,也为人工智能产业提供了高质量数据支撑的典型范例。

高质量数据集赋能AI+场景应用落地

目前,中国电信星辰MaaS平台构建起“算力-模型-数据-工具-应用”全链条AI服务能力,集成超80个行业大模型以及50多个高质量数据集,能够一站式满足用户多云算力调度、数据标注处理、大模型训推、行业智能体应用需求,深度赋能央企AI+场景应用落地。已在中车集团等10余个央企落地应用,涵盖能源、工业、交通、住建等多行业。

在新型工业化领域,利用“翼云控+工业大模型”推动产线智能改造,大幅提高智能加工、物流分拣、视觉质检等环节的生产效率。例如,在某大型制造业企业中,通过部署星辰工业大模型,设备故障率降低了30%,生产效率提升了25%,产品次品率降低了15%,为企业节省了大量的成本,提升了市场竞争力。

在教育领域,打造校园帮办大模型解决学校系统人性化难题。为院校打造专属问答助手,整合了知识管理、智能问答和数据分析等一体化服务功能,使师生服务效率提升40%,知识文档优化率提升40%,目前已落地广西、甘肃等多所院校,服务数万名师生。心理健康大模型则通过多轮情感对话赋能校园心理健康,为学生提供情绪疏导服务。据数据显示,该大模型专业度测评高达91.7%,心理服务应答效率提升60%。

在交通领域,与中车集团合作,通过“息壤”平台提供算力调度支持,定制开发整车仿真、安全监测、乘客服务等12个场景的行业大模型,助力中车的核心生产环节智能化升级,共同打造交通领域的行业应用标杆。

在政务领域,打造的星辰政务大模型已在上海、江苏等多地应用落地,大幅提升热线运营效率和市民感知,未来将面向全国推广。

在应急领域,与依图科技联合推出应急预警视觉大模型,可快速识别出180+风险隐患和灾害场景,广泛服务于各级应急管理单位和应急救灾工作。

图片来源:林碧涓/摄

相关内容

热门资讯

济南隆超取得便捷式喷涂装置专利... 国家知识产权局信息显示,济南隆超石油机械锻造有限公司取得一项名为“一种便捷式喷涂装置”的专利,授权公...
原创 中... 光谷国际光电子博览会5月18日一开锣,国家信息光电子创新中心展台前就堵住了——不是为拍展板合影,是真...
镜观东莞・智见未来 | 克里特... AI眼镜产业风口正盛 东莞凭借完整产业链与强大制造能力 稳居全球AI眼镜出货量第一 在东莞凤岗,一家...
红魔11S Pro系列手机搭载... IT之家 5 月 15 日消息,红魔官方今天宣布 11S Pro 系列手机将搭载 8000mAh 电...
机器人从场景中来,到产业中去 5月15日,2026越疆工业具身智能生态伙伴研讨会青岛站顺利举行,活动现场多款机器人进行一一展示,其...
索尼AI相机翻车,裴宇都看不下... IT之家 5 月 15 日消息,索尼 Xperia 1 VIII 手机的“AI 相机助手”功能最近引...
原创 看... 5月13日,阿里巴巴公布了2026财年第四季度和全年业绩。 尽管2026年Q4阿里经调整净利润同比下...
全国首个落地!华为5G-A在青... 快科技5月15日消息,青岛移动联手华为,建成了全国首个5G-A全场景智能化业务保障网络。 青岛本身已...
中国特供版RTX 5090又要... 快科技5月15日消息,受全球高端显存供应持续短缺的影响,NVIDIA再度上调RTX 5090及RTX...
华为何刚买智界V9也得排队,自... IT之家 5 月 15 日消息,今天下午,鸿蒙智行首款 MPV 车型 —— 智界 V9 正式上市。新...