张向宏：大力发展数据工厂为人工智能提供充足“燃料”

2026-06-16 16:25:00 创业指导

国家数据专家咨询委员会委员、北京交通大学教授张向宏。人民网记者翁奇羽摄

人民网自贡6月16日电（记者栗翘楚）6月16日，由人民网·人民数据主办的“2026人民数据大会”在四川省自贡市举行。国家数据专家咨询委员会委员、北京交通大学教授张向宏在大会主旨发言中表示，人工智能正加速从学习阶段迈入规模化应用阶段，而高质量数据供给不足正成为制约其深度落地的关键瓶颈。发展“数据工厂”，是实现高质量数据集规模化、标准化生产的必然选择。

张向宏介绍，2025年是人工智能从“训练”走向“应用”的起点。数据显示，2025年国内AI推理数据量达101.34EB，首次超越98.14EB的训练数据量，标志着人工智能已正式跨过学习阶段、步入规模化应用阶段。全年词元调用量约21100万亿，词元正成为人工智能的新度量衡。然而，支撑人工智能技术升级的高质量数据集依然匮乏。存量公域语料持续供给乏力，海量私域数据、非结构化数据、行业高端数据无法有效供给，导致市面上各类大模型能力趋同，难以突破专业场景应用。

张向宏认为，高端数据匮乏的深层原因在于生产方式滞后。当前，大部分高质量数据集的生产仍处于“作坊式”阶段，大模型公司和人工智能企业大多“自采自用”，亟需一种能够规模化、设施化、标准化生产高端数据的新型基础设施——“数据工厂”。

从建设路径看，数据标注企业升级、算力工厂转型、人工智能企业数据业务剥离、技术创新企业引领，是当前数据工厂建设的四种主要模式。张向宏介绍，自去年底提出“数据工厂”概念以来，全国已有28个省、市将数据工厂建设列为2026年工作重点。

张向宏表示，打造数据工厂是实现高质量数据集规模化、标准化供给的必然选择。在国家数据底座、核心功能节点、行业与企业基础设施等不同层面布局建设数据工厂，构建从行业通识、行业专属到业务专精的多层次数据供给体系，才能推动数据要素切实服务于人工智能发展和千行百业的场景需求，为人工智能创新发展提供充足、可持续的“燃料”。

(责编：杨曦、高雷)

关注公众号：人民网财经