目今,,,人工智能处在快速生长的要害时期,,,正在重塑经济社会生长模式。。。。。。2024年中央经济事情聚会指出,,,开展“人工智能+”行动,,,培育未来工业。。。。。。数据作为人工智能生长的三大焦点要素之一,,,是人工智能模子训练的基础要素,,,也是人工智能模子应用的焦点资源,,,加速建设人工智能高质量数据集,,,关于推动“人工智能+”场景落地具有主要意义。。。。。。
高质量数据集建设保存的问题
高质量数据供应是推动新一代人工智能加速生长的要害要素。。。。。。目今,,,面向新一代人工智能的数据供应仍有缺乏,,,数据处置惩罚专用手艺有待进一步突破,,,数据工业和数据生态有待富厚,,,高质量数据集的整体妄想和支持政策尚有待完善。。。。。。
首先,,,通用领域、笔直领域以及具身智能领域的高质量数据供应仍有缺乏。。。。。。一方面,,,中文果真数据在质量和数目方面落伍于英文数据。。。。。。另一方面,,,我国公共数据开放使用水平有待提高,,,各地开放标准不统一,,,专门面向人工智能生长的高质量行业数据集仍较匮乏。。。。。。具身智能领域真实交互数据收罗缺乏,,,主要缘故原由在于智能机械人与情形的交互数据获取难题且本钱高昂,,,同时,,,企业收罗数据缺乏统一的参照标准。。。。。。
其次,,,高质量数据的合成、处置惩罚和使用手艺亟待提升。。。。。。使用深度学习和强化学习天生高准确度、多样化合成数据的手艺在成熟度和应用规模上急需突破。。。。。。随着社会自动化和智能化水平的一直提高,,,对数据处置惩罚的要求也一直提升,,,因此急需针对结构化、半结构化和非结构化数据的处置惩罚手艺举行迭代优化,,,进一步提高数据处置惩罚效率。。。。。。
再次,,,数据主体和商业模式生长尚不可熟。。。。。。我国缺乏类似美国Databricks和Snowflake“数据+人工智能”模式的高质量数据汇聚和治理主体,,,具备大规模数据汇聚治理剖析能力的公司数目缺乏。。。。。。医疗、执法、包管、金融、工业、科研等多个领域的公共数据授权运营主体现在仍在培育中,,,数据集构建和运营使用的商业模式生长还不敷成熟。。。。。。
最后,,,高质量数据集的专项妄想和支持政策有待完善。。。。。。我国已出台一系列数据生长相关指引政策,,,可是面向新一代人工智能模子训练和场景应用的高质量数据集专项妄想和支持政策尚未出台,,,其建设、运营、流通、使用等方面行动有待进一步细化。。。。。。在数据收罗方面,,,各领域数据缺乏适用的标准规范;;;;;;在数据使用方面,,,缺少面向大模子和具身智能模子训练的数据共享和流通增进机制,,,一定水平上限制了模子能力的快速提升。。。。。。
多措并举建设高质量数据集
针对目今保存的资源、手艺、模式、制度等方面问题,,,连系新一代人工智能生长的需要,,,建议施展政府和市场的协同作用,,,多措并举推进高质量数据集建设。。。。。。
一是加速公共数据开放和企业数据流通,,,建设面向新一代人工智能的高质量数据集。。。。。。建议形成部分、行业、地区配合加入的协同机制,,,围绕高质量数据集建设,,,扩大数据供应规模和规模,,,完善公共及行业数据标准,,,加速可信数据空间建设。。。。。。面向医疗、教育、科研、执法、工业、农业、物流、金融、能源、交通等重点领域建设大数据中心及大模子行业应用立异(工程)中心,,,突破信息孤岛,,,构建完整数据生态,,,构建高质量数据集,,,提升笔直领域人工智能模子能力。。。。。。着眼自动驾驶、具身智能等未来工业需求,,,开放相关公共数据,,,制订行业数据标准,,,探索企业间数据流通机制,,,勉励企业和研究机构建设高质量行业数据集。。。。。。
二是围绕建设行业高质量数据集要害手艺问题加大攻关力度。。。。。。面向数据合成和处置惩罚,,,加速开发数据合成、数据治理的要害共性手艺;;;;;;面向数据流通汇聚,,,鼎力大举推广隐私盘算、区块链等手艺;;;;;;面向“数据+人工智能”应用模式,,,着力开发数据治理手艺,,,探索新型模子结构和训练架构。。。。。。勉励面向人工智能的数据产品、数据效劳企业牵头肩负国家重大项目,,,开展应用基础研究和要害焦点手艺攻关。。。。。。推动产学研相助和立异联合体建设,,,打造数据手艺、产品和效劳深度融合的新型相助模式。。。。。。面向重点场景,,,打造数据手艺“测试场”,,,提供真实数据情形、模拟应用场景,,,建设中试基地,,,吸引企业、高校和科研机构加入数据手艺的立异和验证,,,加速新手艺推广和应用。。。。。。
三是指导企业和商业模式立异,,,构建人工智能数据工业生态。。。。。。鼎力大举培育人工智能数据资源、手艺、效劳、应用、清静、基础设施等多领域企业,,,重点建设面向人工智能行业的数据工业立异平台。。。。。。勉励企业基于“数据+人工智能”探索多领域商业模式,,,支持企业与各方相助,,,打造基于高质量数据集的工业立异链和生态系统。。。。。。勉励企业探索大模子和具身智能应用场景,,,驱动数据工业生长。。。。。。支持模子应用、模子开发、数据效劳、数据产品等相关企业组建立异联合体,,,开发高质量数据集,,,生长“数据即效劳”“知识即效劳”“模子即效劳”等新业态。。。。。。
四是加大人工智能高质量数据集建设政策支持力度。。。。。。面向新一代人工智能手艺开发和应用生长需求,,,完善数据资源构建系统,,,培育数据工业,,,支持数据手艺生长,,,系统推进高质量数据集建设,,,强化行业应用。。。。。。统筹中央和地方财务资金、工业指导基金和种种政策性投资,,,加大对高质量数据集建设的投入。。。。。。勉励金融机构立异产品和效劳,,,增添对数据相关企业的融资支持。。。。。。指导社会资源有序加入人工智能高质量数据集的开发使用。。。。。。
(作者系中国科学院科技战略咨询研究院研究员)
泉源:科技日报 摘自:中国工信新闻网