国家数据专家咨询委员会委员、北京交通大学教授张向宏。人民网记者 翁奇羽摄

人民网自贡6月16日电 (记者栗翘楚)6月16日,由人民网·人民数据主办的“2026人民数据大会”在四川省自贡市举行。国家数据专家咨询委员会委员、北京交通大学教授张向宏在大会主旨发言中表示,人工智能正加速从学习阶段迈入规模化应用阶段,而高质量数据供给不足正成为制约其深度落地的关键瓶颈。发展“数据工厂”,是实现高质量数据集规模化、标准化生产的必然选择。

张向宏介绍,2025年是人工智能从“训练”走向“应用”的起点。数据显示,2025年国内AI推理数据量达101.34EB,首次超越98.14EB的训练数据量,标志着人工智能已正式跨过学习阶段、步入规模化应用阶段。全年词元调用量约21100万亿,词元正成为人工智能的新度量衡。然而,支撑人工智能技术升级的高质量数据集依然匮乏。存量公域语料持续供给乏力,海量私域数据、非结构化数据、行业高端数据无法有效供给,导致市面上各类大模型能力趋同,难以突破专业场景应用。

张向宏认为,高端数据匮乏的深层原因在于生产方式滞后。当前,大部分高质量数据集的生产仍处于“作坊式”阶段,大模型公司和人工智能企业大多“自采自用”,亟需一种能够规模化、设施化、标准化生产高端数据的新型基础设施——“数据工厂”。

从建设路径看,数据标注企业升级、算力工厂转型、人工智能企业数据业务剥离、技术创新企业引领,是当前数据工厂建设的四种主要模式。张向宏介绍,自去年底提出“数据工厂”概念以来,全国已有28个省、市将数据工厂建设列为2026年工作重点。

张向宏表示,打造数据工厂是实现高质量数据集规模化、标准化供给的必然选择。在国家数据底座、核心功能节点、行业与企业基础设施等不同层面布局建设数据工厂,构建从行业通识、行业专属到业务专精的多层次数据供给体系,才能推动数据要素切实服务于人工智能发展和千行百业的场景需求,为人工智能创新发展提供充足、可持续的“燃料”。

(责编:杨曦、高雷)
关注公众号:人民网财经

分享让更多人看到


免责声明:以上数据来源于天眼查等平台,相关内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。如有侵权请联系0531-85193563。

本文来源:人民网