2.1 数据定价的背景和意义
随着人工智能、大数据、云计算、物联网等技术的飞速发展及其与市场经济的深度融合,以金融和信息科技为代表的产业界积累了海量的市场交易数据和服务业务数据。传感智能设备(如工业设备、智能家居设备、个人穿戴设备)的大范围应用与部署源源不断地产生海量的感知数据。激增的数据成为政府和企业的核心资产,其被迅速且广泛地应用于政府公共管理、金融决策、新零售、智慧医疗服务、智能制造等领域。大数据这一新型“石油”资产受到各领域的关注,相应的产业规模发展迅猛。根据IDC(国际数据公司)发布的《数据时代2025》(Data Age2025)白皮书,全球数据量将从2018年的33ZB增至2025年的175ZB,2018—2025年中国的数据量将以30%的年平均增长速度领先全球。预计到2025年中国数据圈将增至48.6ZB,占全球27.8%,成为最大数据圈。由于数据是非独占资源,且具有协同作用属性,从而聚合后的数据价值通常远大于单一数据集价值的简单相加。因此数据的共享流通、融合应用将极大地提升数据资源的利用价值,这也是大数据时代发展的必然趋势。飞速增长的海量数据和各行各业对大规模数据融合应用的强烈需求为数据共享交易创造了难得的机会,近期,相关政策也明确指出了数据资源共享与交易的必要性和方向。2015年国务院印发的《促进大数据发展行动纲要》中提出,“引导培育大数据交易市场,开展面向应用的数据交易市场试点,探索开展大数据衍生产品交易,鼓励产业链各环节市场主体进行数据交换和交易,促进数据资源流通,建立健全数据资源交易机制和定价机制,规范交易行为。”党的十九届四中全会通过的《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》提出,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,首次将数据列为与劳动、资本、土地、知识、技术、管理并列的生产要素。中共中央国务院颁布的《关于构建更加完善的要素市场化配置体制机制的意见》进一步提出,加快培育数据要素市场,充分挖掘数据要素价值。我国各地政府洞察到数据要素在推动数字经济发展、促进资源整合和利用方面的潜在价值,纷纷建立大数据共享与交易平台,以促进数据资产的流通。继贵阳大数据交易所之后,上海、武汉、北京、重庆、哈尔滨等地也纷纷布局大数据战略,筹建数据交易市场。工业界同样意识到高价值数据资产是其在信息经济时代提升竞争力的关键。企业扩大自身收集数据的范围,提高自身收集数据的能力,数据共享与交易的需求不断提高。数据堂运营国内第一家大数据电商平台,以电商模式实现大数据资产的在线交易。类似于数据堂的电商模式,京东、百度等公司也纷纷建立数据共享交易平台。
李克强总理在2016年5月提到,目前我国至少80%的信息数据资源都是封闭的,是极大浪费。然而当前的数据共享与流通机制技术以及法律法规仍然无法满足各领域、各主体对于数据资源流通的强烈需求,仍然存在着数据不愿共享、不敢共享以及不易共享的困境。进而导致大数据市场发展的动力不足,仍然存在大量数据孤岛的现象。数据资源的流动共享需要安全可信数据交易技术的支持。通常数据交易市场中涉及买家(数据消费者)、卖家(数据所有者)和平台(数据代理商)三方实体。在数据交易的过程中,他们从各自的利益出发会遇到“数据质量如何?”,“数据值多少钱?”和“数据卖多少钱?”等基本问题。数据交易过程中准确可信的数据质量评估、数据价值评估和公平的数据定价机制保障了买卖双方权益,维护了平台声誉,构建了规范有序的数据市场,但维护健康、可持续的数据共享和交易生态等关键问题也是亟待解决的难题。
数据交易的有序健康发展离不开数据定价方法的支持。公开透明、可信安全、灵活可扩展的数据定价技术关乎数据市场的规范化发展。然而现有数据市场中的数据定价策略大都是基于经验判断,缺乏相应的理论指导。数据的售卖形式和价格的制定缺乏规范。由于市场信息的非对称性,数据买家对于数据商品很难进行准确估值,难以做出最优数据购买决策;数据卖家也没有相应的机制来学习买家的数据估值,进行准确定价,从而造成数据交易收益的流失,损伤了数据卖家和买家参与的积极性。中国信息通信研究院发表的《大数据白皮书(2016年)》中明确提出:数据产品定价困难是我国大数据交易面临的主要问题之一。在缺乏完善统一的定价机制和有效监管的市场环境下,面对日益复杂多样的大数据产品和数据交易场景,如何实现数据商品价格的公开化、透明化以及可信安全是亟待解决的问题。
在数据要素政策扶持以及数据流通市场需求的驱动下,数据正逐步从封闭难共享的资源演变成为一种可进行交易的新兴电子商品。传统的商品从原材料到产品形态再到市场商品,存在一个复杂的价值链。在人工智能时代看数据资产的生命周期,数据在价值链上处在起点的位置,从一开始作为训练数据的原材料,到中间通过机器学习模型算法进行分析与处理,再到最后成为智能产品服务提供给用户,其中经历了一系列加工和增值过程,包括数据清理、数据融合、数据分析挖掘、模型设计、训练与测试、知识提取以及部署应用等关键步骤。要推动从原始数据到数据商品的价值链,还有很多关键经济问题需要考虑,其中核心问题是数据资产的定价,其挑战来自数据作为新兴电子商品的新特点,主要体现在以下方面:
● 数据成本构成特殊: 数据同时拥有高生产成本和低边际成本。数据的产生、收集都需要消耗较多的人力资源和硬件设备,储存和维护数据更需要长期的场地和人工成本。数据一旦生成,就可以被低成本、无损耗地复制,一份数据可以同时售卖给多人。数据具有固定的生产(采集)成本,而其边际成本却可以忽略。
● 数据需求多样、估值困难: 买家对数据的需求是多样的,数据的价值因应用场景而异,比如GPS数据在导航应用中价值较高,在金融征信应用中价值较低。数据的价值也与数据的稀疏性有关。对于某些商业金融数据,数据越稀疏,其价值越低。对于政府部门的交通出行数据,涉及的人数越多,数据价值越高。由于数据应用场景的多样化,卖家难以对数据的市场价值进行准确评估,更难以准确制定数据商品价格。
● 数据真实性难验证: 数据是二进制符号(比如数值型传感数据),卖家可以随机地伪造、生成虚假数据,而不是从数据源(传感器)中真实地采集数据。而数据买家也通常缺失真实数据集来验证购买的数据的真实性。数据的价值需要建立在数据真实性的基础上。
● 数据所有权模糊: 个人日常行为所产生的个人数据的所有权毫无疑问属于个人。而不同于房子、股票等传统商品,数据具有易于复制传播的特性。在多次传播过程中,数据所有权变得模糊,难以界定,导致数据拥有者的权益受到损坏。我们需要厘清数据交易过程中数据各项权益的转移,并且反映在数据定价上。
● 数据隐私敏感: 虽然个人隐私数据能够用来提供个性化服务,但是却不能直接拿来交易。数据没有绝对的隐私,多项实际案例表明,即使是不敏感的数据,被大量收集后,也会暴露个人隐私。所以在交易隐私数据的过程中需要特别注重隐私保护,但是仍然有隐私泄露的风险。所以数据定价需要充分考虑隐私泄露的程度,对用户进行隐私补偿。
● 数据类型多样: 不同类型的数据具有一些特殊性质。比如,一些用来决策的数据(商业数据)具有很高的时效性。金融数据具有很强的时间相关性。传感器采集的数值数据的数据质量参差不齐、数据精度具有较强的不确定性等。而对于无结构的多媒体数据,难以找到简单统一的数据量化标准。
针对数据出现的新特点,在数据定价问题上展现了许多新的挑战:
● 数据产权定价模糊: 数据是数字资产,其与产权相关的交易、管理以及开发费用较高且难以量化。数据产权在数据的传播过程中逐渐模糊,数据权属界定具有难度,为数据交易带来了阻碍,使得数据定价困难。
● 数据价值不确定: 数据产品定价的最大难点之一在于数据产品价值的不确定性。主要表现在:(1)数据价值的明确具有滞后性,买方需要在数据使用后才可确定是否达到预期目标;(2)买卖双方在数据质量、数据效用期望值等方面的理解不同,致使无法达成一致的数据定价;(3)由于数据应用场景的多样化,卖家难以对数据的市场价值进行准确评估,更难以准确制定数据商品价格;(4)数据交易双方信息不对称,卖方掌握的信息多于买方,造成了大数据价值的双向不确定性,成为大数据定价的最大难点所在。这些困难说明了传统的定价交易方式已经不能解决现有的数据定价问题。
● 数据格式多样: 数据市场交易数据具有多样性,不仅有结构化数据,还有半结构化甚至非结构化数据,如多媒体数据、物联网数据等。数据内容所覆盖的范围也超越了传统数据库。数据产品流通格式多种多样,数据格式标准化程度低,且无统一技术标准。不同种类的数据在相应场景中也具有不同的价值,难以用统一的标准处理数据定价问题。我们需要依据数据类型,充分挖掘各类型数据的特点,设计相应的数据定价机制。
● 数据产品具有外部性: 作为新兴电子产品,数据具有网络外部性。过多的数据供应反而会给数据拥有者带来负面影响。这种负面影响我们称之为负外部性,主要体现在两个方面:(1)不限量的数据供应导致数据贬值,交易平台难以获得最优的数据交易收益,数据碰撞效用降低;(2)数据交易具有排他性,数据购买者不希望存在“竞争”关系的用户也获得同样的数据,数据拥有者本身也具有排他性,不愿意数据为他人所用。这种现象在价值高的数据产品中表现得更为强烈,抑制了数据的流通与共享。这样的负外部性导致了数据交易中数据售卖的策略变化,需要充分考虑数据购买者的竞争关系,给数据定价问题带来了困难。
● 数据隐私难量化: 高价值的数据往往是隐私数据,由于数据的边际成本较低,在数据交易的过程中易复制,数据隐私容易泄露,非法的数据交易更是会对个人数据的安全造成影响。数据复杂的关联关系进一步加剧了数据隐私量化的难度。数据价格也存在隐私泄露的风险,数据价格和隐私泄露间的关系是数据定价需要解决的问题。
综上分析,数据产品定价存在数据产权定价模糊、格式非标准化、数据价值不确定、价值外部性以及隐私易泄露等制约因素,导致在大数据交易中,与传统物质商品不同,买卖双方对商品的价值并不能做出合理评估,难以制定数据定价策略。要解决这些问题,不仅需要建立统一、规范的交易渠道和定价规范,更需要对大数据产品及其衍生服务进行分类、标准化以及统一的质量评估、充分的价值评估、可行的隐私保护和隐私补偿,从而建立完善健全的大数据产品定价模型。