1.3 数据管理层
1.3.1 技术框架
数据基础设施的数据管理层主要解决数据全生命周期管理与安全保障问题,其核心技术主要包括数据管理和安全支撑两部分。数据管理层主要实现数据资源到数据要素的转化,从技术视角看主要涵盖数据管理技术、安全支撑技术等,同时与数据源和数据应用方面的技术具有较密切的互动,如图1-3所示。在数据管理技术方面,主要通过数据目录、元数据管理、主数据管理等实现数据资源的汇聚和统一管理,通过数据标准、数据质量、数据加工等实现数据清洗加工和融合,形成可用数据要素,为上层数据应用开发提供生产资料。在安全支撑方面,主要实现数据信任和安全监管两方面的功能,以支撑核心数据资源的安全可信流转。

图1-3 数据管理层技术框架
1.3.2 数据管理技术
数据管理技术,也称为数据资产管理技术,其中涉及数据目录、元数据管理、主数据管理、数据质量管理、数据集成和互操作等。目前国内外已出现大量成熟的数据管理技术产品,数据湖、数字中台等综合性管理平台也不断涌现。
1.基础管理技术工具
数据管理涵盖数据资源管理、数据质量管理等内容,需要多种技术工具的支撑,具体包括:
(1)数据目录
数据目录主要实现对数据资源的梳理和盘点,形成数据资源地图,是实现数据资源展示、交换共享、业务协同的基础。通过数据目录,数据提供方可以直观、清晰地掌握其所拥有的数据资源,数据需求方可以准确寻求自己所需的数据资源,为数据开发方开展挖掘分析、开发利用等工作提供数据支撑。
(2)元数据管理
元数据是“关于数据的数据”,包括业务元数据、技术元数据和管理元数据等。通过元数据管理可以帮助数据提供方理解其自身的数据、系统和流程,帮助数据使用方对数据进行管理。元数据管理工具的核心是抽象和构建机构的元数据模型,以支撑数据资源的处理、维护、集成、保护和审计等工作。
(3)主数据管理
主数据是有关业务实体的数据,一般涵盖参与主体、产品和服务、财务体系等内容。主数据管理主要确保主数据资产的统一性、准确性、管理性、语义一致性和问责性。通过对主数据值进行控制,企业可以跨系统地使用一致的主数据。
(4)数据质量管理
数据质量是指保障数据价值实现的可靠性和可信性。数据质量是数据管理的最终目标。数据质量管理专注于数据质量标准规范的制定,以及数据质量水平的测量、监控和报告等方面,从数据应用角度监测数据质量。
(5)数据集成和互操作
数据集成和互操作是指数据在不同主体和应用之间调度、融合的相关过程。数据集成和互操作涵盖数据交换、数据整合、数据分发、数据集成等活动,提供了大多数主体所需的基本数据管理能力要求。
2.综合性管理平台
除了大量基础数据管理技术工具外,现在还出现了一系列综合性数据管理平台,为各主体提供综合管理功能,典型的产品包括数据湖和数据中台等。
(1)数据湖
数据湖这一概念最早于2011年由CITO Research网站的CTO和作家Dan Woods提出。数据湖是一个存储各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖可以实现数据资源的集中式管理,并在此基础上形成新的能力,包括预测分析、智能推荐等。一方面,数据湖是一个以原始格式存储数据的存储系统,可以存储结构化数据(如关系数据库中的表等)、半结构化数据(如CSV、日志、XML、JSON等)、非结构化数据(如电子邮件、文档、图片、音视频等)。通过数据湖可以完成或实现不同数据仓库的功能,因此用户不必为海量不同的数据构建不同的数据库、数据仓库。另一方面,数据湖也是一个大数据平台。随着大数据技术的不断完善,成熟的数据湖产品往往同时具备大数据分析、机器学习等能力,拥有足够强的计算能力来处理和分析所有类型的数据,并将分析后的数据存储起来供用户使用。
数据湖技术未来将与大数据技术、云计算、人工智能、数据治理、数据安全相结合,按需满足对不同数据的分析、处理和存储需求。一是数据湖与大数据技术紧密结合。利用Hadoop存储成本低的特点,将海量原始数据、本地数据、转换数据等保存在Hadoop中。这样所有数据都在一个地方存储,为后续数据管理、再处理、分析提供基础。二是数据湖技术与云计算相结合。采用虚拟化、多租户等技术满足业务对服务器、网络、存储等基础资源的最大化利用,降低企业在IT基础设施方面的成本,为企业带来巨大经济效益;同时云计算技术还可以实现主机、存储等资源的快速申请和使用,为企业带来了管理的便捷性。三是数据湖技术与人工智能相结合。随着人工智能技术的飞速发展,训练和推理等需要同时处理超大的甚至是多个数据集,这些数据集通常是视频、图片、文本等非结构化数据,来自多个行业、组织、项目,对这些数据的采集、存储、清洗、转换、特征提取等工作是一个复杂、漫长的工程。数据湖需要为人工智能程序提供数据快速收集、治理、分析的平台,同时提供极高的带宽、海量小文件存取、多协议互通、数据共享等能力,大幅提高了数据挖掘、深度学习等的速度。
(2)数据中台技术
在国内,数据中台首先由阿里提出。从概念上看,数据中台是企业实现数字化的一个解决方案,可将共性需求进行抽象,打造成平台化、组件化的系统能力,以接口、组件等形式共享给各业务单元使用,从而使企业可以针对特定问题,快速灵活地调用资源来构建解决方案,为业务的创新和迭代赋能。从本质上看,数字中台是一套方法论加一个产品组合,能够承接数据湖的存储技术,利用数据技术实现对海量、多源数据的采集、处理、存储和计算等,形成可复用的数据生产要素,为上层数据应用提供支撑。
具体而言,数据中台需要具备数据汇聚、数据融合、数据加工、数据应用4个主要功能。在数据汇聚层面,数据中台首先解决的是企业内系统间数据孤岛的问题,将不同系统中的数据进行全面汇集和管理,通过数据提炼分析、集中化管理,形成企业数据资产,服务于业务,解决数据交换与共享问题。在数据融合层面,通过对各业务线的模块去重和沉淀,共享通用模块,让前台业务更加敏捷地面向市场,实现企业新业务的快速上线与迭代试错,服务更多场景,提升业务响应力。在数据加工层面,数据中台通过提供数据资产盘点、数据分类分级、数据访问控制、数据质量管理等功能,有力支撑了数据提炼和分析加工,避免了重复开发,使得技术迭代升级更高效,可按需扩展服务,让整个技术架构更开放。在数据应用层面,数据中台提供自然语言分析、数据分析、数据可视化等功能,为业务人员提供便捷的数据开发环境,以及预测分析、机器学习等服务,实现数据应用的快速开发。
目前,数据中台已经成为互联网领域的热点,腾讯、百度、京东等互联网企业都建设了自己的数据中台,推出了一系列数据中台产品。与此同时,数据中台逐步从互联网领域拓展到政务、工业等领域,数字政府中台等产品不断涌现。数据中台基于大数据和云计算平台,整合了数据整理、数据存储、数据管理等功能,为各行业、各领域打造数据从管理、治理到应用的整体解决方案。
1.3.3 安全支撑技术
1.数据信任技术
数据要素市场访问主体多元、来源广泛、访问场景异构,亟须建设信任技术保障体系,利用基于角色的访问控制模型,实现“实名制”动态网络安全管理,为构建以“身份为中心”的数据安全体系提供基础支撑。为提高信任技术保障管理的效率,采用集约模式进行统一建设应用,按照“统一身份管理、统一身份认证、统一授权管理、统一责任认定”的原则,实现对业务系统的应用、数据、开发测试和运维管理等复杂要素和复杂环节的一体化集中管控。
信任技术保障以密码技术为基础,以“最小授权、知其所需”的原则,通过细粒度角色赋权,对数据访问实施动态管控,主要由身份管理、身份认证、权限管理和责任认定四部分构成。见图1-4。

图1-4 数据信任技术框架
在身份管理方面,主要实现网上应用系统的用户、角色和组织机构统一管理,为数据要素市场中政府、企业、个人主体账号和身份信息提供全生命周期管理,包括身份账号的建立、修改、冻结、删除等,使数据要素市场参与主体在网络中有明确对应的身份和角色。
在身份认证方面,利用秘密信息、实物凭证和生物特征等,应用密码技术对网络身份进行鉴别认证,确认行为主体的真实性。为简化用户操作,需提供统一身份认证能力,实现各种应用系统间跨域的单点登录和单点退出,保证同一用户身份在不同应用系统中的一致性。
在权限管理方面,实现自然人对资源的统一授权,建立“账号—角色—资源”的映射关系,实现不同用户身份对系统不同资源的授权管理访问,同时针对主体提供实时的环境风险感知与信任评估,基于持续风险评估结果实施动态访问控制,提高授权访问的安全性。
在责任认定方面,实现数据操作行为的可追溯性,判定数据违规操作责任人。通过行为审计、流量审计、日志分析、电子取证等技术手段,将数据活动参与者的行为记录、存储下来,并对有关流量、日志和行为等进行分析和审查,追溯事件的逻辑链及证据链,确定相关责任方。
2.安全监管技术
全流程监管重点针对数据要素各环节的应用特点,尤其是从数据流通角度出发,构建全流程、白名单、多视角的数据安全监管能力。安全监管技术框架见图1-5。

图1-5 安全监管技术框架
在全流程安全监管方面,围绕“数据要素供给—数据可信流通—数据交易市场”各个环节,利用人工智能、大数据的智能分析能力,对数据流通中的各环节、各关键部位进行细粒度监控,并通过多种手段重点监测并相互印证。在数据要素供给环节,重点是对数据的访问者、访问行为等进行细粒度监测,防范访问过程中的非法违规行为;在数据可信流通环节,重点是对数据在不同场景下流通过程中的数据流通异常情况进行监测;在数据交易市场环节,重点是对数据产品的提供方和消费方及其之间的行为进行监测。
在白名单安全监管方面,针对数据流通过程,传统黑名单方式的异常检测已经难以保证数据状态的安全可信,只能以白名单方式聚合正常数据访问的基线状态,防范黑名单分析状态空间爆炸的问题。从数据场景出发,了解数据的用途、初始状态、流通过程、流通要素、结果状态等内容,自动制定并生成数据安全基线。当数据处理过程和相关内容符合基线时判定为正常流通过程,当超过阈值并触发报警时,可判定为发生异常,并根据线索追踪事件的来龙去脉,降本增效,提高全程数据安全监管能力。
在多视角安全监管方面,借助相关数据安全采集工具,汇集网络安全、应用安全、数据安全等领域的日志,实现基于实名的建模分析与研判预警。从监管者角度看,需要区分数据要素市场中的异常交易和数据违规操作等内容,明确责任主体,及时进行处置通报。从生产者角度看,需要了解自己生产数据的状态、流通过程等信息,以确保自己的数据安全。从运营者角度看,需要了解当前各数据要素部件的安全状态,了解是否有网络攻击、数据窃取、数据滥用等问题,并及时处置。综合落实上述内容,才能让数据生产者与消费者更有信心将数据资源、数据产品进行线上交易,进而扩大数据要素市场的交易规模,并通过规模效应促进数据要素市场的进一步繁荣,降本增效,形成良性循环。