前言
自2015年10月29日,十八届五中全会将大数据上升为国家战略以来,我国一直积极推动大数据的发展。2017年12月8日,习近平总书记在中共中央政治局第二次集体学习上发表重要讲话,开启了我国大数据发展的新篇章;2019年10月31日,十九届四中全会公报明确提出,将数据作为生产要素;2020年3月30日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》出台,明确提出“加快培育数据要素市场”,并强调要推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护的具体要求。2021年在中共中央政治局第三十四次集体学习时,习近平总书记发表重要讲话,指出“要完善数字经济治理体系,健全法律法规和政策制度,完善体制机制,提高我国数字经济治理体系和治理能力现代化水平”。
实施国家大数据战略,建设数字中国,发展数字经济是新时代的必然选择,其途径是加快推进各行各业的数字化转型,其关键是加快培育数据要素市场,这是一项系统工程,需要系统化统筹、推进。为此,需要尽快构建较为完善的数据治理体系,推动加快数据治理步伐!
本书是数据治理系列丛书的第三本,旨在总结介绍数据治理中的关键核心技术以及标准化的发展。在本系列丛书的《数据治理之论》一书中,以五个关键词展开了对数据治理的概念、认识以及发展现状的论述,即从数据危机、价值释放、规则秩序、安全底线、学科交叉五个方面系统地阐述了数据治理的概念和数据治理的框架体系,尝试统一术语和概念,并从多学科的角度进一步阐述数据治理的研究现状以及各个学科对数据治理的认识,力求从多维度、多视角、多层面剖析数据治理的内涵与外延。在本系列丛书的《数据治理之路》一书中,则以贵州省的工作为例,介绍了数据治理的实践,包括:从国际的视角,对比国际上一些典型做法,呈现贵州实践的创新性和中国特色;从历史的视角,阐述作为我国首个大数据综合试验区的实践历史,记录探索历程;从系统的视角,按照数据资产化探索、数据管理体制机制、数据共享与开放、数据安全与隐私保护四个方面总结和分析实践经验。尝试在总结贵州实践经验的基础上,提炼一些总结性观点,形成参考性经验和路径。
本书是对数据治理相关技术和标准的梳理和总结,内容组织上遵循以下三个原则:
(1)技术的视角:数据治理涉及的技术庞多繁杂,本书从《数据治理之论》一书所提出的数据治理体系框架出发,从资产地位确立、管理体制机制、共享与开放、安全与隐私保护四个建设维度,选择了若干数据治理关键核心技术(包括:数据基础设施建设、数据定价、数据管理技术、数据互操作、数据安全与隐私保护技术)进行原理、方法与技术的介绍,并对国内外相关主流技术进行对比分析,使读者对数据治理的关键核心技术形成较为全面的总体认知,把握技术发展脉络与趋势,从而帮助读者更好地开展数据治理的技术选型、方法实现、方案实施以及应用实践等工作。
(2)标准的视角:标准是支撑数据治理顺利开展的必要保障措施。本书从标准化需求出发,探讨如何面向国家、行业和企业等不同层级的数据治理目标,设计系统化数据治理标准体系的思路,以及推行数据治理标准的方法与途径,并结合我国当前在数据治理标准化工作方面的进展,展望数据治理标准化未来建设的方向与重点。
(3)实践的视角:本书将理论与实践密切结合,给出数据治理关键技术及标准在实际场景中的应用方式与可供参考借鉴的最佳实践。在对已有实际案例进行全面梳理的基础上,提炼技术与标准有机融合的场景,进而形成最佳解决方案的典型模式,支持数据治理的有效实施。
本书结构分为上下两篇,第一篇关注数据治理的核心关键技术,包括五章。
第一章:数据基础设施建设。主要介绍数据基础设施的目标、作用、框架以及建设案例。数据基础设施是实施数据治理的基础,面对新形势下数据治理的需求,数据基础设施应以数据资源为中心,实现资源、管理、应用的一体化。本章以贵州数据基础设施实践为例,分别从总体框架、基础支撑层、数据管理层、数据流通层介绍了数据基础设施构建的过程。
第二章:数据定价。数据定价是数据流通交易的前提,意义重大。本章首先介绍数据定价的背景和意义,通过对数据交易平台发展历程的回顾与分析,探讨数据定价方法,给出基于数据要素的定价方法、基于博弈论与微观经济学的定价方法、面向特定数据类型的定价方法等。数据定价技术作为大数据共享与交易的关键一环,目前国内外尚未形成一个被大家广泛认同的标准,尚处于多种技术相互竞争的阶段,有鉴于此,本章未对数据定价技术给出总结性的判断,而是对其未来发展做了进一步的展望。
第三章:数据管理技术。本章着重讨论数据管理能力成熟度评估模型中关于数据管理的技术,包括数据资源分布、数据准备、数据应用和数据质量评估。数据资源分布部分主要从数据模型、数据分类技术与数据资源目录几个方面,介绍企业如何管理其散布在各部门、以多种形式存在的数据资源。数据准备部分则介绍了数据清洗、元数据和主数据构建及数据集成这几个过程。数据应用部分主要介绍通过数据分析,找出其中蕴含的规律和知识并辅助决策的相关方法和技术。考虑到知识图谱近年来成为数据应用的主流技术,具有广泛的应用空间,本节对此项技术进行了重点介绍,包括知识表示、知识图谱构建、知识图谱查询与存储以及基于知识图谱的应用等几个方面。数据质量评估部分则从数据质量的维度、数据质量评估的框架,以及数据质量评估标准几个方面进行了介绍。
第四章:数据互操作。本章主要从数据互操作的概念、模型、技术框架以及一些具体技术进行阐述。首先,总结了已有工作对计算机领域中互操作/互操作性的定义,以及随着技术发展,互操作技术不同的关注点。接着,对互操作性的评估模型与互操作的架构模型进行了详细论述,并介绍了互操作框架的要素以及主流互操作技术的互操作框架。面对“数据孤岛”问题,着重介绍了用于解决“数据孤岛”问题的数据互操作开放技术,包括抽取–转换–加载技术、基于企业服务总线的交换技术、流程自动化机器人技术以及基于内存数据的反射技术。
第五章:数据安全与隐私保护技术。本章从数据安全与隐私保护技术、相关工具与平台等几方面入手,对数据安全与隐私保护问题进行了探讨。数据安全技术涉及身份认证、访问控制、密文检索以及数据传输等内容;隐私保护技术则介绍了几种具有代表性的隐私保护技术,包括:数据共享阶段的K匿名技术及其变种,集中式差分隐私技术;数据利用阶段的同态加密技术,安全多方计算技术;数据获取阶段的匿名通信技术,本地差分隐私技术等。最后,对数据安全与隐私保护相关工具进行了简要介绍。
第二篇关注数据治理的标准化工作,包括三章。
第六章:标准化工具概述。本章介绍了标准化的作用,分别从标准分类与管理、标准制定原则、标准制定流程进行了详细介绍,并探讨了标准与创新的关系,以及标准化立法方面的工作。
第七章:数据治理标准体系。数据治理标准体系框架主要涉及国家、行业、组织三个层面的相关标准,本章分别从国家、行业、组织三个层次对标准规划、标准需求、标准制定重点进行了详细阐述。
第八章:数据治理标准的实践与进展。本章阐述全国信标委大数据标准工作组有关数据治理开展的相关工作,以及工作进展,包括标准论证期间的调研工作、正在论证的标准情况、已经申报国家标准的情况和发布国家标准的情况,并对重点标准实践与进展情况进行了介绍。
本书由北京大学、中国人民大学、中国软件评测中心、贵州省大数据应用推广中心联合上海交通大学、中国电子技术标准化研究院、上海计算机软件技术开发中心、中国科学院信息工程研究所等共同完成。第一篇第一章的作者是吴志刚、王闯、李天池,潘伟杰,第二章的作者是吴帆、郑臻哲、杨恺、赵俊峰、王亚沙,第三章的作者是杜小勇、陈晋川、陈跃国,第四章的作者是张颖、张溯、罗超然、蔡斯博、张伟、苏星、董艳、蔡华谦,第五章的作者是刘泽艺、李敏、张伟娟、关志、王亚沙、赵俊峰,第二篇的作者是杜小勇、戴炳荣、张群。此外,杜小勇、赵俊峰、吴志刚、潘伟杰、王闯、李天池、黄婕、许济沧、徐明月等对各章内容进行了审阅,王闯、李天池、黄婕、许济沧、徐明月等对各章内容进行了编辑修改,感谢以上编写人员的辛苦付出!同时,贵州省大数据发展管理局、云上贵州大数据产业发展有限公司、贵州中软云上数据技术服务有限公司、华控清交信息科技(北京)有限公司等单位为本书提供了大量素材和实践案例,在此表示感谢!
数据治理的内涵和外延尚未形成共识,相关技术更是丰富且庞杂。由于作者认识局限、能力有限、时间有限,同时限于本书的篇幅,我们只是对其中我们认识到并相对熟悉的核心关键技术进行了介绍。此外,由于作者较多,各自的认知、观点未必一致,各自的行文风格也不尽相同,虽然在统稿方面付出了努力,但仍然在一致性、自洽性、流畅性方面存在诸多欠缺。还望读者见谅。本书的目的是尽可能考虑对数据治理相关技术覆盖的广度,因此对每项技术的介绍缺少深度,给人浅尝辄止之感。期待未来能有机会针对某些特定技术做更深入的论述。
2021年11月