1.1 数据基础设施概述
1.1.1 数字经济时代呼唤数据基础设施
当今,世界正快速由工业经济时代迈向数字经济时代。在“数化万物、智化生存”的数字经济时代,数字空间为人类认识和改造世界提供了新的手段。数据资源已经成为新型的生产要素,通过数字化现有其他要素,促进生产效率大幅提升,有力驱动数字经济发展。然而,数字经济时代的发展也面临数据存储、供给、治理、流通、安全等一系列瓶颈,亟须构建新型数据基础设施。
1.世界加速迈进数字经济时代
国际上,欧美等国密集出台数据发展的相关战略,积极推进数据资源开发和数字市场建设。美国发布《联邦数据战略与2020年行动计划》,以2020年为起始年,联邦数据战略描述了美国联邦政府未来十年的数据愿景,并初步确定了各政府机构在2020年需要采取的关键行动;欧盟公布《欧盟数据战略》,提出将欧盟构建成为世界上最具吸引力、最安全、最具活力的数字经济体,使欧盟能够利用数据改善决策、改善全体公民的生活;英国发布《国家数据战略》,旨在进一步推动数据在政府、企业、社会中的使用,并通过数据的使用推动创新,提高生产力,创造新的创业和就业机会,改善公共服务,帮助英国经济尽快从疫情中复苏。
在我国,政府积极推动数据要素市场发展,数字经济正成为引领经济高质量发展的新引擎。2017年12月,习近平总书记主持中共中央政治局就实施国家大数据战略进行第二次集体学习,并指出“要构建以数据为关键要素的数字经济”。党的十九届四中全会首次提出将数据作为生产要素,参与收益分配,这标志着中国正式进入数据红利大规模释放时代。2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据与土地、劳动力、资本、技术等传统生产要素并列,明确提出要加快培育数据要素市场。十三届全国人大四次会议表决通过的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》更是将“加快数字化发展,建设数字中国”独立成篇。数据已成为融入网络强国、数字经济、数字社会、数字政府等各个领域的基础性、战略性的生产要素。2021年世界互联网大会上发布的《中国互联网发展报告(2021)》指出,2020年中国数字经济规模达到39.2万亿元,占GDP比重达38.6%,保持9.7%的高位增长速度,成为稳定经济增长的关键动力。
2.数字经济发展面临诸多困境
在新一代信息技术的推动下,政府、行业、企业的数字化转型正在加速。数据的量级、类型等快速增加,海量数据蕴含着巨大的价值,但是数字经济发展仍存在一系列问题,如基础资源约束、数据供给能力不足、数据流通不畅、数据安全问题频发等。解决上述问题就需要数字经济各参与方形成新的能力,建设、完善数据基础设施,突破数字经济发展中的各种瓶颈与障碍。各类问题可以分为以下四个方面。
第一,基础资源约束瓶颈。基础资源主要包括存储资源、计算资源和网络资源。在存储资源方面,数字化转型推动企业的数据量从PB级向EB级迈进。据预测,全球新产生的数据量将从2020年的47ZB快速增长到2035年的2142ZB。由于存储系统仍为传统架构以及成本等原因,当前企业数据仅有不到2%被保存,数据“存不下”的问题日益严重。在计算资源方面,数据的深度挖掘和应用离不开人工智能技术的使用。随着人工智能算法突飞猛进的发展,越来越多的模型训练需要巨量的算力支撑才能快速有效地实施,算力基础设施成为助力数字经济发展的重要因素。在网络资源方面,通过数字化转型,企业越来越倾向于自动化的精细管理,如使用可以降低生产成本、简化生产线的柔性制造系统(FMS),使用响应更快、弹性更高的制造执行系统(MES)等。企业生产管理各个环节都涉及自动化应用,数万台客户端同时向服务器输送数据的状况成为常态,与计算、存储资源承受的压力类似,网络也面临资源不足问题的严重困扰。
第二,数据供给瓶颈。影响数据供给的要素主要包括数据盘点、数据分布、数据共享和数据质量等。从数据盘点角度看,数据治理需要具备专业的知识体系、专业技能和实践经验。当前,很多部门和企业对其所拥有的数据资源的底账情况还不了解,处于混沌或无序状态,存在数据目录缺乏、数据盘点不到位、数据分类分级不彻底等问题。从数据分布角度看,由于数据要素覆盖范围广,且比特化数据均依托信息系统或平台存在,而存量信息系统往往由业务部门建设,自身就是孤岛式设计,条块化的业务分割则加剧了这一情况。从数据共享角度看,国家相关政策法规仍不完善,数据管理权责不清晰,数据共享缺乏督促,同时数据资产化地位不明确,且缺少快速见效的应用场景,从而最终导致数据共享驱动力不足。从数据质量角度看,基于部门职权的数据体系不够完善,数据完备性不足;冷数据、死数据偏多,数据共享开放成效低,数据有效性较低;囿于传统条块划分,系统及数据标准不一;主数据参考依据不足,数据之间相互矛盾的现象影响了数据的高效应用,数据权威性不够。
第三,数据流通瓶颈。作为一种蕴含巨大潜在价值的资源,数据价值的发挥是一个让数据“动起来”的过程。麦肯锡研究发现
,在过去十年中,数据流动推动全球GDP增长了10.1%。但是,在数据流通方面还面临两方面的问题。一方面,国家之间数据跨境流动困难,政府部门之间数据共享难度大,企业之间数据共享意识不强;政府与企业之间数据流动障碍重重。另一方面,数据价值流转仍缺少标准规范。从数据确权角度看,数据自身的非竞争性、非排他性等特征导致数据存在多重权属,现有法律体系框架仍难以解决其确权问题;从数据资产化地位角度看,数据的管理运营部门仍多为成本部门,明确数据资产地位的“上位法”尚未制定,数据资产尚无法体现在会计报表中,数据价值评估标准尚存争议,数据交易定价模式仍在研究,数据收益分配机制尚未形成。
第四,数据安全瓶颈。数据安全和隐私保护是数据要素市场的一个关键问题,可以从技术和管理两个维度进行分析。在技术安全方面,网络安全攻击更加频繁、更加隐蔽,数据泄露事件层出不穷,泄露数据量大、受影响用户多、泄露内容详细。如近期脸谱网5.3亿条、领英5亿条用户数据泄漏。
个人隐私泄露严重会导致网络诈骗等犯罪活动激增。据统计,2020年全球网络犯罪造成的损失超过1万亿美元。在管理安全方面,超级网络平台数据垄断加剧,数据滥用、误用情况严重。剑桥分析事件、大数据杀熟、算法霸权等数据滥用现象频发,加剧了数据安全管理难度。
3.数据基础设施成为新基建的重要内容
2019年3月,中央经济工作会议将“新基建”列入2019年经济建设的重点任务,主要包括5G基站、特高压、城际高速铁路和城际轨道交通、新能源汽车充电桩、大数据中心、人工智能和工业互联网等七大领域。2020年4月,国家发改委明确了“新基建”的内涵:要以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。同时将“新基建”分为三大块:一是信息基础设施。主要是指基于新一代信息技术演化生成的基础设施,比如,以5G、物联网、工业互联网、卫星互联网为代表的通信网络基础设施;以人工智能、云计算、区块链等为代表的新技术基础设施;以数据中心、智能计算中心为代表的算力基础设施等。二是融合基础设施。主要是指深度应用互联网、大数据、人工智能等技术,支撑传统基础设施转型升级,进而形成的融合基础设施,比如,智能交通基础设施、智慧能源基础设施等。三是创新基础设施。主要是指支撑科学研究、技术开发、产品研制的具有公益属性的基础设施,比如,重大科技基础设施、科教基础设施、产业技术创新基础设施等。
数据基础设施尚没有统一的概念。从狭义上讲,数据基础设施是指支撑数据运转的相关软硬件资源,如数据中台、数据仓库、数据湖等。从广义上讲,数据基础设施是指以数据为中心,深度整合存储、计算、网络等资源,以挖掘数据价值为目标,以保障数据安全为底线,支撑数据资源全生命周期运转的基础设施。网络基础设施、算力基础设施等都可以纳入其中。我们认为,数据基础设施是传统IT基础设施面向数字化、智能化演进的必然结果,是数字经济时代最重要的基础设施,可以对应新基建中的信息基础设施。
1.1.2 数据基础设施应实现资源、管理和应用的一体化
传统的信息基础设施和大数据中心等,往往聚焦于设备的堆叠和性能的提升,以满足服务和应用系统的需求。但随着数据量指数级的增长,新应用对服务水平要求越来越高,单纯从设备和性能角度分析,传统的信息基础设施已经很难满足需求。数据基础设施是按照数据思维,以数据资源为中心,实现资源、管理、应用的一体化,具体特征如下:
1.资源一体化
不同于现有大数据中心一方面需要提升存储、计算和网络资源供给能力,而另一方面又不得不限制投入的困境,数据基础设施通过将所有资源进行重新整合,实现资源一体化管理,保证所有设备的负荷都能处于最优、最高状态。资源一体化架构要求在一个紧密结合的高效、高性能、高可用的系统中实现融合计算、网络、存储等众多功能,以提高整体的灵活性和全局效率。通过将资源组件整合在一起,资源一体化架构实现单一且高可用的资源一体化系统,将数千台服务器、不同架构的存储和网络设备全部集中在一个系统中运营管理,有效降低前期投入成本、减轻后期运营压力。目前,云数据中心一般有三大核心部分,即数据网、存储网和高性能计算,在资源一体化系统中,要把三个部分整合到一起,利用统一的交换技术实现高速数据交换。
2.管理一体化
资源一体化重新规划了所有底层设备,并将资源重新融合,形成数据基础设施中巨大的资源池,通过统一的调度机制实现资源的管理和调配。管理一体化考虑得更加全面,涉及资源调度、数据治理、系统运维等,其中构建数据治理体系十分重要,涉及国家、行业、组织等主体,以及数据战略、组织架构、数据标准、数据质量、数据分布、数据应用等内容,为资源管控、资源调配和应用实现提供综合支撑,为数据基础设施的管理方和使用方提供服务。
3.开发一体化
实现数据应用开发的标准化和一体化,是数据基础设施最核心的目标。通过资源一体化、管理一体化,可以实现数据生产要素的一体化,为支撑数据应用打下坚实的基础。而对数据应用开发而言,在数据生产要素本身完成标准化之后,可以构建标准化的数据开发工具集,包括数据管理、运营加工等技术工具,进而构建数据产品和服务加工流水线,实现数据开发一体化。
1.1.3 数据基础设施的三层架构
数据基础设施架构包括三层——基础支撑层、数据管理层和交易流通层,如图1-1所示。其中,基础支撑层主要提供计算、网络、存储等基础资源,构建数据资源池;数据管理层由数据管理和安全支撑相关技术工具组成,支撑数据资源全生命周期管理,实现数据资源的要素化;交易流通层主要支撑数据的运维、运营、价值评估和交易流通,实现数据价值的释放。

图1-1 数据基础设施构架
1.基础支撑层
基础支撑层,也可称为数据资源层,主要提供计算、网络、存储等基础硬件资源,最终形成数据资源池。区别于传统的硬件设施,数据基础设施主要面向数据治理与应用,从数据融合应用角度出发,实现资源的一体化。通过引入多样性计算,从单一算力到多样性算力,匹配多样性数据,使计算更高效;利用宽带、5G等多种网络资源,提供统一、高效、稳定的网络连接,支撑数据资源高效共享交换;从单一类型存储走向多样性融合存储,构建融合处理基础,应对存储效率低、管理复杂的问题。
2.数据管理层
数据管理层,也可称为数据要素层,主要提供面向数据管理和安全支撑的基础工具,将数据资源加工为可用的数据生产要素。除了操作系统、数据库系统等基础软件外,该层主要面向数据资源从采集、汇聚、管理、调度、开发、应用的全生命周期各参与主体,提供支撑数据管理的技术工具,如数据目录、主数据管理、元数据管理、数据质量管理、数据集成及互操作等,以及支撑构建数据信任环境的安全支撑工具,如身份认证、权限管理、安全监管等。数据管理层可确保在安全可信的条件下,实现从单一处理向多源数据智能协同、融合处理的发展,应对更实时和智能的数据应用需求,为上层应用提供数据生产要素支撑,加速数据价值实现。
3.交易流通层
交易流通层,也可称为数据资产层,主要提供数据产品和服务的加工、运营和交易流通支撑能力,将数据生产要素转化为数据产品或服务并上市交易。在运营加工环节,该层需要提供安全可控的数据开发利用环境,实现数据要素的运营加工,在确保数据各方权益的前提下,支撑数据产品和服务的开发。在数据交易流通环节,该层提供数据价值评估机制、数据交易流通机制及相应的技术工具,实现数据产品和服务的定价交易,并实现各方的收益分配。