2.3 数据定价要素
下面,我们首先分析数据定价的影响因素,包括数据的生命周期、数据质量价值、市场流通过程、售卖方式以及数据的成本结构等方面。数据商品的价格受到数据来源、数据规模、数据种类、数据采集方式、数据实时性等多种因素的影响。目前无论是大数据交易的工业实践还是数据市场的理论研究都没有统一规范的数据产品定价方法。我们从以下四个角度思考数据定价的影响因素。
2.3.1 数据产品的售卖形式
数据市场中的核心问题是充分挖掘数据作为新兴电子商品的经济学特性,确定数据以何种形式、何种价格售卖,从而最大化数据售卖者的收益,以激励更多的数据拥有者参与到数据市场中;同时,也让数据需求方高效地购买到所需数据,实现数据的按需购买。目前数据共享交易的形式可以划分为以下三种。
数据共享交易1.0:共享交易数据本身,类似于传统商品的买卖。数据经过处理、清洗、脱敏等,组合成完整的数据集,并且可以被分为不同版本。在数据需求方支付了一定费用后,数据按照一定方式开放给数据需求方,主要提供数据浏览、下载(以Excel或CSV等格式)等功能,包括数字、文本、表格、图片、图像、地图等各类实时与非实时的数据。在法律允许的范围内,不限定数据下载量和数据用途。将原始数据作为实物商品进行买卖,主要是所有权交易。但是由于数据作为一种新兴的电子商品,其权利可复制、可传播、可分离,具有与实物商品不同的本质特点。交易过程涉及数据所有权、管理权、使用权、收益权、隐私权、安全保护等复杂问题,因此直接交易原始数据有面临更多权益纠纷的风险。
数据共享交易2.0:共享交易数据的查询服务,在此过程中,数据本身不可见。在不改变数据所有权、管理权的前提下,仅涉及使用权、安全访问控制等问题,更容易设计和实现数据共享交易机制。共享经济中使用权一般重于所有权:数据符合无形商品的特点,如文学著作、软件、电影和专利作为一种特定领域的数据,其共享模式已形成一些有效的机制和方法,多是使用权交易与服务定价,所有权交易发生的频度低。共享交易数据的查询服务通过数据脱敏、API访问、沙箱运行和二次加工等方式推动数据的共享使用,实现数据使用权交易,解决数据的开放共享与合理使用难题,形成数据共享的良好生态环境,如公安部全国人口信息社会应用平台和中国知网CNKI数据库共享服务是典型的成功案例。
数据共享交易3.0:共享交易数据的智能服务,主要通过联邦学习、多方计算等方法提供服务,在此过程中数据不可见。这种方式的优点在于可以定制数据集以及相关智能服务产品,特别是对数据服务工具和应用进行定制。充分利用机器学习、数据挖掘等技术,将数据中隐含的信息提取到模型服务中。通过共享模型以及提供服务来实现数据的共享和信息的传播。除此之外,上述两种数据共享交易形式没有充分保护数据隐私,往往造成敏感信息泄露,导致大量用户不愿意分享个人数据,阻碍数据流通。而本方式不交易数据的所有权或使用权,而是对基于数据的服务进行交易,大大加强了数据安全隐私保护。
不同的数据共享与交易的形式也为数据定价提出了新的要求和挑战。现有数据市场中的数据定价策略大都是基于经验判断,缺乏相应的理论指导,尤其是数据的售卖形式的制定缺乏规范。在数据的售卖形式由数据卖家决定的情况下,数据买家对于数据商品很难进行准确估值,难以做出最优数据购买决策;数据卖家也没有相应的机制来学习买家的数据估值,从而进行准确定价,于是造成了数据交易收益的流失,损伤了数据卖家和数据买家参与的积极性。
2.3.2 数据产品质量
数据质量是大数据产品最基本的性质,是决定数据价值与数据价格的重要因素。数据交易平台可以依据数据质量对数据产品做出基本的定价决策。由于大数据的获取方式、数据类型和格式多样,数据精度不一致以及存在人为干扰因素等问题,常出现错误数据、不完整数据、不安全数据和不一致数据,共享数据的质量难以保障,为数据的定价带来了不稳定性,阻碍了数据市场的发展。为此,需要建立一个统一高效的数据质量鉴定理论体系。
数据质量标准主要包括数据的准确性、完整性、安全性与一致性等多个维度。借鉴全面质量管理(total quality management,TQM)的质量循环改进思路,美国麻省理工学院(MIT)的Stuart Madnick和Richard Wang建立了TDQM(total data quality management)理论,为数据质量标准化提供了理论支撑,但是没有提出具体的数据质量衡量标准。为了突破数据产品的质量国际标准化的困境,ISO下设的委员会在2005年开始组织撰写ISO8000标准,以突破数据质量没有国际标准的困境。ISO8000数据质量国际标准包括数据质量框架、主数据质量、事务数据质量和产品数据质量等。西安交通大学的张坦教授在质量标准体系方面,回顾国内外数据质量研究与实践的进展,重点对ISO8000数据质量国际标准进行了探讨。同时,面向大数据质量标准化方法和测度理论,给出了我国政府进行数据质量控制及其标准化建设的对策建议,提出了一种评估数据质量的方法,根据域的有效性条件,将预定义域分配给一个或多个数据列,通过计算列中数据值是否满足有效性条件评估该列数据的质量,并且基于组中一列数据的质量计算一组列数据的质量。
在基于数据质量可鉴定的基础上,中国科学技术大学的李向阳教授讨论了数据质量与数据价格的关系,指出影响数据价格的数据质量包含内在质量、表达质量、可访问性质量、上下文质量等,并从买家、卖家、数据代理商三个角度讨论数据质量对数据价格的影响。
2.3.3 数据成本构成
数据价格除了受到数据质量及供需关系的影响外,数据价格的基础还是由数据成本决定。数据的成本包括数据采集成本、数据存储成本、数据计算与分析成本以及数据边际成本。
数据采集成本是数据成本的基础,指数据平台通过人工、布置传感器或者网络爬虫等方式收集数据所付出的人工成本和设备成本。采集成本是无法避免的固有成本,是影响商品定价的重要因素。数据平台能够通过优化数据采集策略、更换数据采集方式等方法降低数据采集成本,从而进一步降低数据成本,提升利润空间。
数据储存成本和数据计算与分析成本是指数据中心在储存、计算与分析数据的时候所付出的储存资源与计算资源,也可以是数据消费者租用云计算平台的储存、CPU或者GPU等资源的费用。根据云计算平台Nasuni公司发布的报告,存储1TB文件数据的平均成本(包括硬件、软件、网络传输、数据备份、人工维护等)大约每年3351美元。计算与分析成本则严重依赖于具体的计算平台和计算任务。数据云计算平台大多采取按量计算,即按照占用CPU或者GPU的时间计费。在存储与计算耦合的数据平台中,当数据储存资源和计算资源两者其一出现瓶颈时,必然会导致存储或计算能力的冗余,这无疑造成了难以避免的额外成本。所以数据平台(如AWS、阿里云等)都是通过存算分离的方式将存储和计算两个数据生命周期中的关键环节剥离,形成两个独立的资源集合。两个资源集合之间互不干涉,但又通力协作,使得单位资源的存储成本和计算与分析成本尽量减少。
数据边际成本是指每新增一单位生产的数据带来的总成本的增量。对于传统商品而言,生产一种全新的产品前需要花费大量成本对产品进行设计、组建生产流水线,等等。在后续生产的过程中,随着产量的增加,由于生产线已经成熟,边际成本不断下降。但是边际成本的下降是有限度的,当产量超过目前的生产能力时,我们需要再次投入大量成本,此时边际成本随着产量的增加而递增。然而,对于数据产品而言,这种情况就不会存在。数据作为商品的最大特性就是边际成本几乎为零。由于数据产品本身的可复制特性,当我们收集并处理好数据之后,无论之后数据产品售卖多少次,其边际成本都可以忽略不计。
由于数据产品同时具有非常高的固定成本和无限小的边际成本,所以数据定价不仅仅取决于生产成本和供需关系,对数据的定价方式提出了新的挑战。
2.3.4 数据使用场景与效用
数据使用场景作为数据交易流程的最终端,对数据的价值起到了决定性的作用。不同种类的数据对应不同的数据使用场景会展现不同的数据价值。数据场景的不同导致数据类型和数据效用的不同,从而影响数据的价值。
● 数据类型: 针对不同使用场景,数据消费者想要购买的数据不尽相同。举例来说,想要训练人脸识别的消费者只需要人脸相关的图片数据,智慧交通系统更需要交通的视频数据和实时传感器的数据。不同的数据种类的特性,例如感知数据的时空关联性、多媒体数据难量化等,导致了数据的定价具有不同的内涵。所以我们需要根据不同的数据类型研究具体的数据定价方法。
● 数据精度: 针对不同的使用场景,数据消费方想要购买的同种类数据的精度也不同。举例来说,对于室外的地图导航等应用,精度为米级别的空间信息数据已经足够;而对于室内的智慧家居等应用,则需要厘米级别的空间信息数据来完成室内定位。在这种情况下,米级别和厘米级别的数据对于地图导航等应用有相同的价值,而米级别的空间信息数据对于室内定位等应用完全没有价值。所以我们需要根据消费者的需求研究更加灵活的数据定价和售卖方式。
● 数据效用: 在不同的应用场景下,消费者都采用不同的机器学习模型,这导致了数据对不同黑盒模型的贡献也是不同且模糊的。举例来说,在训练人脸识别机器学习模型的使用场景中,人脸数据对模型的训练有正向贡献。如果混入低质量的模糊图片、动物图片甚至恶意的对抗样本,那么这样的数据是没有价值的,甚至对模型的训练有负面影响,导致模型失效。但是数据效用只能在数据交易完成后才能得到验证,难以应用于交易之前的定价方法。所以我们需要尽可能地在数据交易前估计数据对相应机器学习模型的效用。