2026年3月,全国两会召开,政府工作报告首次点名“建设高质量数据集”。
“建设高质量数据集”点明了人工智能时代必须解决的一个问题:数据之于人工智能,就好比石油之于汽车。当下的互联网时代,每时每刻都在生产数据资源,却难以被有效利用起来。
资源不等于燃料。原油变成汽油,中间要经过分馏、裂解、催化等一系列复杂的工序。
原始数据资源要变成可用、好用的数据燃料,同样也需要一套炼化流程,通过清洗、脱敏、标注、质检等手段,使数据准确、完整、一致。
这个过程,就是建设高质量数据集。它决定了人工智能从生成式AI向智能体AI演进时,能否拥有源源不断的动力。
面对这道关乎未来的必答题,湖南正以紧迫又务实的姿态作答。
凭什么能答:手握垂直行业数据富矿
目前,湖南已有2个项目入围国家高质量数据集建设先行先试工作名单,2个项目成功入选国家高质量数据集典型案例,4个项目获批中央预算内专项资金支持。
湖南的底气,在于拥有一批特色鲜明、潜力巨大的行业数据资源。在工程机械领域,中联重科、三一重工等龙头企业积累了大量工业制造和智能运维数据;在文化科技领域,马栏山视频文创产业园汇聚了海量音视频内容;在医疗健康、气象服务等领域,湖南同样具备深厚积淀。
这些垂直行业的数据富矿,正是建设高质量数据集的最佳原料产地。
怎么答:摸家底、定方向、建项目
湖南建设高质量数据集,比拼的不仅是数据资源的占有量,更是数据精炼的能力,包括数据标注的精细度、标准制定的前瞻性、场景匹配的准确度,等等。
2月,省工信厅联合省数据局启动全省算法产品、数据产品和AI高质量数据集摸排工作。
3月,省数据局发布的《2026年政务服务和数据工作要点》明确提出:“出台高质量数据集建设行动方案”“建设一批行业高质量数据集”“争取高质量数据集中部检验检测平台落户湖南”。
3月11日,省数据局再次发布通知征集2026年湖南省高质量数据集建设先行先试项目。
原始数据采集回来只是起点,能不能通过清洗去掉“杂质”、通过标注赋予“价值”、通过标准化实现“通用”,最终变成可直接驱动AI模型的燃料,考验的是一个地区的数据治理能力。
而这正是湖南下一步发力的方向。
(文/杨小康)
来源:湖南日报·新湖南客户端
编辑:喻琢
审核:朱格林 陈新科