2.4 数据定价方法
在传统的商品交易领域中,定价理论已经很成熟,然而这些理论在数据商品定价方法中并不完全适用。数据商品不同于传统商品和普通电子商品,其具有的新特性为定价带来了诸多困难。数据商品的交易形式和价格制定仍然是经济学领域和计算机领域待解决的基本问题。近年来,数据定价领域涌现了很多基于不同理论的数据定价方法。比如,基于数据要素的定价方法,这类方法通过量化隐私泄露程度和使用数据后所带来的效用来衡量数据价值;又如基于博弈论与微观经济学的定价方法,在这类方法中,数据被视为某种特定类型的信息产品,然后将经济学方法与计算机结合对数据商品进行定价;有的定价方法将数据分为不同类型进行讨论,如关系型数据、感知数据和多媒体数据,等等。
2.4.1 传统定价理论
经济学中传统的定价理论主要有早期价格理论、马克思劳动价值理论、现代西方价格理论。下面我们简要回顾这三个理论。
早期价格理论进一步包括效用价格理论、供求价格理论、成本价格理论。效用价格理论指决定商品价格的是商品使用价值;供求价格理论认为决定商品价格的是市场供需关系,供需曲线的交点为商品的价格;成本价格理论指商品价格是各类成本的总和。马克思劳动价值理论认为商品价格与其本身的价值量有关,也与生产商品的社会必要劳动时间有关。现代西方价格理论包括边际成本理论、垄断价格理论和均衡价格理论。边际成本理论表示商品的价格至少需要大于生产一单位新商品的边际成本;垄断价格理论认为生产者会以高于平均成本的价格对垄断商品进行定价,形成垄断价格;均衡价格理论综合考虑了商品成本、商品价值以及市场的供需关系。
由于数据产品有异于传统商品的新特性,所以数据定价所能借鉴的定价模式并不多。数据质量衡量的复杂性、数据使用场景的多样性以及数据交易的外部性等特点决定了基于市场供需关系的定价理论不适用;大数据本身就具有唯一性(各个大数据集之间都是不同的),且数据商品的产生是数据采集、标注、清洗、分析、提炼的复杂过程,既有人力成本的投入,也有机器计算资源的投入,难以转化成社会必要劳动时间,因此马克思劳动价值理论不适用;边际成本理论用再生产一单位产品的边际成本来决定商品价格,显然,数据可以低成本或者无成本地无限复制,其边际成本趋近于零,因此边际成本无法用来确定大数据的价格。综上所述,可以借鉴的理论模型有效用价格理论、成本价格理论。
● 效用价格理论: 价格效用理论认为决定数据价格的是其使用价值,即在具体应用场景中,使用数据前后决策者的预期收益(或损失)的差值是相应数据的价格。数据的前预期收益,即数据使用前的收益容易计算,难点在于数据的后预期收益的量化,即数据使用带来的效用的量化。我们进一步区分两种后预期收益:一种是确定性后预期收益,这种收益表示数据购买者具有明确的数据使用场景,对数据带来的增益较为确定,比如数据带来的机器学习模型精度的提升,更新的机器学习模型使决策收益增长;另一种是非确定性后预期收益,这种情况代表数据购买者对数据商品可能的应用场景还不明确,未能衡量数据带来的可能收益。对非确定性数据收益,只能通过一定的办法估算数据使用后的收益,比如参照市场上同行使用数据后的收益情况、数据的行业价值的分析等。
● 成本价格理论: 成本价格理论认为决定数据价格的是其成本,包括实施成本和运行/维护成本两个主要部分。实施成本主要包括数据收集过程中产生的采集费用、人员费用、数据处理费用、软硬件购置费用等;运行/维护成本包括软硬件运行费用、数据的存储费用、软硬件设备的管理和维护费用等。这些费用的产生贯穿于数据的整个生命周期,包括数据的生成、采集、清洗、标注、模型训练、使用、维护等过程。因此,数据成本是影响数据价格的重要因素。
通常,数据价格由于各种不确定因素的干扰,会落在一定的区间。因此上述两种理论模型只能对数据定价做一个粗略的估计,并没有考虑具体情况,比如数据本身也具有非排他性,即其可以被多个主体同时使用。同时,相异的数据集也可能出现同样的效用与收益,所以,数据的可替代性也是定价的影响因素之一。因此,我们需要严谨的定价策略来实现对数据价格的确定。
2.4.2 数据采购策略
数据是数据交易市场中交易商品的原材料。一方面,为了满足数据消费者多样化的数据需求,数据服务提供商需要聚合来自多方数据源的各类数据。另一方面,随着周围环境的变化和时间的推移,固有的数据将失去时效性,变得不准确,甚至产生错误的数据表示。因此数据交易平台需要周期性地向市场提供新鲜的数据,从而提供全面、精准、实时的数据服务。考虑到数据提供商自身有限的数据采集能力,数据提供商需要利用群体智能的力量,从外部数据源购买数据。众包(crowdsourcing)被认为是采集海量数据行之有效的方法,并且已经被部署在实际数据市场的数据采集中。数据市场中的定价问题既需要考虑数据售卖中对数据购买者的定价,也需要考虑数据采集中对数据提供者的补偿。
众包采购平台的首要问题是设计激励机制,给数据提供者一定的酬劳,以吸引足够多的用户参与众包数据采集。Lee和Hoh设计了基于动态定价的逆向拍卖机制,该机制以最小化众包数据采集平台的花费并且保证系统中有足够多的数据采集用户为设计目标。然而,该工作并没有考虑数据采集用户在众包平台中可能的操纵策略。Yang等人将用户的策略行为建成两种不同的博弈模型:以众包平台为中心的模型和以采集用户为中心的模型,并分别设计了基于斯塔克尔伯格(Stackelberg)博弈和逆向拍卖的数据采购机制。清华大学的杨铮等人考虑了现实中数据采集用户随机出现的情况,提出了三种在线激励机制。
以上数据采集机制的目标主要集中在将社会效益最大化和将数据采集酬劳开销最小化两方面,忽略了大数据环境下人工智能、机器学习任务的优化目标,在数据市场中,我们会提供基于数据的模型服务,因此,在数据采购的过程中,要充分考虑采集的数据对机器学习模型的影响。哈佛大学的Yiling Chen研究组系统地研究了在策略博弈环境下,针对机器学习任务如何进行数据采集。Abernethy等人为机器学习中的遗憾最小化算法(regret minimization)框架设计了真实可信的数据采购机制,同时保证了机器学习算法的性能。Waggoner的博士论文系统地介绍了从理性自私的数据采集者中购买、整合信息的理论方法。
现有的研究未能充分考虑数据市场需求的多样性、数据复杂的时空关联性与高度不确定性,以及理性(自私)数据采集者的策略行为。数据采购需以数据市场需求为导向,而不是盲目地采购数据。然而,大数据应用丰富多样,导致数据需求的多样化,因此无法设计统一的数据采购策略,需要针对不同的数据市场需求,特别是当下人工智能、机器学习,乃至深度学习的数据需求,适时地调整众包数据采购策略。数据复杂的时空关联性与高度不确定性导致难以准确地衡量数据采购者的数据贡献,给酬劳机制的设计带来困难。在数据市场中,理性且自私的数据采集者总是企图通过多样的策略行为来提高数据采集报酬。因此需要针对特定的市场需求,考虑数据的关联性与不确定性,兼顾数据采集用户的策略行为,设计适合数据交易市场的高效数据采购机制。
考虑到数据采集者的理性自私策略行为,可以将数据采购过程建成逆向拍卖博弈模型。数据众包采购平台根据模型训练需求发布数据采集任务,数据采集者提交投标信息来竞争数据采集任务。数据众包采购平台根据投标信息来分发数据采集任务,并确定数据采集者的酬劳。根据优化目标的不同,可以采用传统的维克瑞(Vickrey)拍卖酬劳策略(以全局效益最大化为目标)或迈尔森(Myerson)拍卖酬劳策略(以酬劳最小化为目标)来保证数据采购机制的真实可信。在现实的数据采购过程中,数据需求往往是实时动态变化的,众包平台中的数据采集者通常也是流动的。因此需要将静态的逆向拍卖模型进一步拓展为在线拍卖模型,采用在线学习中的竞争分析(competitive analysis)来衡量数据采购机制的性能。在大规模数据市场中,数据众包采购平台往往具有多样的数据采集任务,数据采集者可能同时对多个任务感兴趣。因此,我们还需要将单任务的逆向拍卖模型拓展到多任务的逆向拍卖模型,并采用组合拍卖(多维度机制设计)的思想来保证数据采集者在多维度策略空间上的真实性。
2.4.3 基于数据要素的定价方法
1.基于数据效用的定价技术
夏普利值(Shapley value)可以用来衡量合作博弈(cooperative game)中参与者的贡献度,是一种同时满足有效性、对称性、可加性的公平分配度量方法。将数据价值评估建模为合作博弈问题,通过计算数据对模型预测的影响来量化数据的贡献度,以达到价值评估的目的,从而可以设计基于数据效用的定价技术。
在合作博弈中,夏普利值是用一个数值公平地代表参与者在合作中创造的价值,具有良好的公平性:
①参与者整体的总价值等于各个参与者夏普利值的总和。
②具有相同贡献的两个参与者具有相同的夏普利值,也就是说,对于任意的参与者组合,其边际贡献都相等,且对所有子集贡献为零的参与者的夏普利值为零。
夏普利值在模型训练中对贡献度的衡量起初都是围绕计算特征重要性的,利用获得的特征重要性可以做模型可解释性工作。所以从这个角度切入,可以解释黑盒模型。最简单的是根据定义式进行采样,每次采集一个样本,对一个特征进行重要性打分。进一步,Lundberg等人提出通过加权线性回归做采样可以同时对所有特征进行重要性计算。另外,还有一些方法是针对深度神经网络的,比如Lundberg等人提出了Deep SHAP的概念,用于计算层内特征的夏普利值,再利用反向传播算法推导特征重要性。Ancona等人进一步提出了多项式级别的夏普利值估算方法。为了解决夏普利值事后解释的不足,Wang等人提出了边训练边计算的思路。
上面提到的这些都是针对特征重要性的,夏普利值还可以直接计算数据重要性。美国斯坦福大学的Ghorbani等人考虑了在复杂深度学习模型下的夏普利值高效的计算方式,可以得到数据集中各个数据的重要性,从而可以依次对数据进行定价。这样的不足之处是,每次变动,训练集都需要重新计算,所以Ghorbani等人进而提出可以对来自同一分布的数据集进行计算,这样如果来自同一分布的数据集稍有变动,则不会对结果产生很大影响。针对夏普利值的高效计算,Jia等人提出了基于群组测试理论以及最近邻算法的夏普利值计算方法。
2.基于隐私量化的定价技术
当涉及敏感隐私或者机密数据时,由于数据提供者的隐私需求,隐私风险则代替数据价值成为衡量数据价格的重要指标。隐私风险主要是计算过程(例如聚合统计、机器学习中的推断预测、联邦数据库查询等)和计算结果(例如统计结果、模型推断结果、数据库查询结果等)中可能出现的隐私泄露。有学者提出将隐私风险分析及评估作为数据定价的参考因素。隐私风险分析及评估,尤其是量化隐私泄露的风险,需要对隐私泄露程度进行度量。目前隐私度量方法主要是基于香农(Shannon)信息论的隐私保护信息熵模型和概率统计的差分隐私模型。北京邮电大学的周亚建团队提出使用条件熵和互信息作为互补的隐私度量,用于量化对手在尝试推断给定任何已发布数据范围内的原始数据时可用的信息量。
哈佛大学Dwork教授等人提出了差分隐私(differential privacy)。差分隐私的目标则是从统计科学角度,尽可能多地挖掘关于整体数据集的规律,量化隐私泄露的概率。雅虎研究院的Ghosh与微软研究院的Roth考虑在单次的计数查询中,把差分隐私技术计算的隐私泄露概率作为量化隐私风险的指标,提出以拍卖的形式交易隐私数据,按照隐私泄露风险的指标给予数据提供者隐私补偿。但是这样基于隐私补偿的数据定价方法需要可信任的第三方来计算隐私泄露风险,这是不现实的。Jorgensen等人结合差分隐私算法中噪声分布的方差可控的特点,根据用户对数据隐私保护强度的要求,通过调整噪声的力度生成符合目标分布的数据分布。美国亚利桑那州立大学Wang等人进一步考虑了在数据交易中不存在可信任的数据平台的情况下,利用隐私泄露风险作为指标为数据添加噪声以保护个人隐私,并建立博弈模型来衡量供给侧的隐私需求。
然而,以上方法忽略了数据普遍存在的关联性。攻击者可以通过购买关联数据推断出受保护的隐私数据,大大增加了数据的隐私泄露风险,给数据定价方案带来了新的挑战。为此,上海交通大学的吴帆教授团队提出了考虑数据关联性的精准隐私量化方法与数据定价方案。其采用了广义差分隐私框架(例如河豚隐私框架)下定义关联型数据隐私需求的度量标准。针对大规模数据集和复杂数据处理函数带来的挑战,研究高效的基于关联关系和函数敏感度的需求近似计算方法,研究本地差分隐私框架下的噪声干扰机制,规避精准隐私需求刻画行为本身对数据贡献者造成的隐私泄露风险。
2.4.4 基于博弈论与微观经济学的定价方法
1.基于拍卖理论的定价技术
由于数据应用场景的多样性,数据价值存在极大的不确定性与差异性,直接对大数据给出一个合理的价格是困难的,特别是在数据交易的前期,数据的市场价值不明确。采取拍卖机制可以激励数据卖方诚实地揭示数据价值,并保证数据卖方利益,同时兼顾市场原则。目前拍卖方案大多针对稀缺资源进行拍卖定价,而对于大数据定价问题,更多还停留在理论研究层面,未见操作性强的落地方案。对于传统物品拍卖,其价值相对固定,且一手交钱一手交货,所得即所有。而数据是一种价值不确定的新型资源,由于数据使用场景的差异,同一数据对不同的用户会产生不同的价值,很难直接给出一个合理的价格。面对具有多样性价值的商品,拍卖机制是一种确定其价格的基础且重要的方法。但如何保证在拍卖中投标者真实、有序竞价,同时兼顾卖家利益是本方案的难点。对拍卖机制而言,有以下几个要点需要考虑:一是数据拍卖不是一次性交易,而是分阶段多次拍卖,可以保证双方对数据价值的逐步学习;二是多种拍卖形式结合,正向竞拍、反向竞拍可以结合使用,也包括使用维克瑞拍卖(第二密封拍卖)——它建立在“诚实”的基础上,可以较好地解决信息不对称的均衡问题。我们以第二密封价格拍卖为例来描述数据定价。数据的拍卖定价的前提是存在多个数据购买者,并且购买者有独占大数据的需要。我们让数据购买者提交对于数据的估值,挑选出数据估值最大的购买者并售卖数据,并且收取第二高数据估值为数据价格。为了更加充分地利用大数据,也可以采取非独占性竞拍,并引入数据同时售卖给多个数据买家的外部性关系。在研究此类拍卖定价策略的过程中,可以参考多重定价策略。
目前已经出现了一些基于拍卖理论的数据定价技术,比如借鉴机器学习的多臂老虎机(Multi-Armed Bandit)问题的框架,Blum等人提出了在线标价电子商品拍卖。对于单需求的买家模型,Balcan和Blum提出了在线拍卖算法,能够得到近似最优的收益。Riederer等人提出了一种交易隐私的机制,应用于敏感个人隐私信息的共享,用户自主决定个人信息的发布和出售,以及相应的价格,同时获得赔偿,并通过无限制供应拍卖的真实性和效率最优性,确保交易中各方的利益得到保障。Dandekar等人对个人数据交易市场进行了初步探讨,重点研究个人数据市场上的隐私数据拍卖问题,并设计了在预算限制下,满足真实性、个人理性等性质的数据拍卖机制。Ghosh等人界定了私人数据拍卖的概念并提出了对私人数据的多单位采购拍卖机制。Jentzsch证明了RVA拍卖机制不能获取私人敏感数据产品的价值。
2.基于信息设计的定价技术
上述基于拍卖理论的定价技术都假设了买家对于商品有明确、具体的估值,这在数据交易市场中不完全符合实际情况。在没有买到具体的数据之前,数据消费者无法对数据商品做出有效的估值,我们称该现象为非对称信息市场环境。非对称信息有两层含义:一方面,在未购买数据商品前,数据消费者无法知道数据商品的具体信息,因而难以估计数据的价值;另一方面,数据估值是数据消费者的私有信息,数据卖方无法知道买家的数据估值,因而难以提前进行准确的数据定价。另外,理性的数据消费者总是企图用更低的价格购买到满足需求的数据商品。因此,数据消费者有足够的动机谎报数据估值以诱导数据卖方制定较低的价格。数据具有复杂的相关性和依赖性,这使得数据消费者可能采用复杂的套利行为,即通过购买一系列低价格的数据来推断高价格的数据商品所蕴含的信息。
我们从数据售卖方式和数据定价机制两个层面进一步阐释非对称信息数据市场下的数据交易策略。数据交易首先得考虑数据以何种方式进行售卖。在非对称信息数据市场下,数据的交易双方很难对数据商品有准确的估值。一方面,数据消费者在未购买数据之前无法知道数据的信息,因而无法准确估值。另一方面,同样的数据对于不同的数据消费者会有完全不同的价值,数据消费者对同种数据也会有不同的质量要求。因此,数据卖家无法知晓数据的市场价值,给数据定价造成了困难。然而,数据卖家可以巧妙地设计数据商品的售卖形式来打破这一非对称信息壁垒,通过释放数据商品信号,比如发布免费数据、提供数据展示(data demonstration)等方式,让数据消费者了解部分数据信息,辅助其准确地对数据估值。数据卖家还可以将数据商品划分为不同版本,每个版本拥有不同的质量和价格。数据消费者选择适应自己需求的数据版本。数据卖家根据数据消费者选择的版本,间接地了解到其数据估值。
在确定数据售卖形式之后,我们进一步考虑数据的定价问题。经济学领域的定价策略基本都是基于贝叶斯假设,也就是数据卖家可以根据历史交易信息统计出市场数据估值的概率分布函数。基于估值概率分布函数,可计算出达到最优收益时的价格取值。然而现实中新投入市场的数据商品的定价策略通常无先验分布知识可以借鉴,而只能利用在线学习(online learning)的思想,在探索(explore)和利用(exploit)之间做权衡。具体地说,数据卖家通过和数据消费者交互以学习并探索其数据估值分布函数,同时数据卖家也会利用已经学习到的信息动态调整价格,保证交易收益。
近年来,经济学和计算机理论领域开始关注非对称信息环境下的定价问题,称为信息(结构)设计(information(structure)design)或者信号(signaling)、劝说(persuasion)。在博弈环境下,拥有更多信息量的一方通过设计信息结构来引导理性自私玩家向有利于系统总体效益的方向发展。在文章中,Mao等人采用信息设计(information design)理论工具,提出了一套解决物联网数据的定价与售卖策略,为不确定数据的定价做出了初步的探索。利用信息设计工具来售卖信息商品是在最近的经济学杂志文章中提出的,主要是利用数据卖家和买家的信息不对称来设计定价与售卖策略。
上述方法虽然已经被运用于数据交易市场的数据商品定价,但是大部分数据卖家都是简单地套用,其背后的理论机理还没有在实践中真正验证。为了能够指导实际数据市场的定价,我们还需要解决如下三大问题。第一,在确定数据售卖方式的过程中,我们需要设计出高效的机制来确定需要发布多少免费数据,决定是否推出数据展示,计算数据需要划分为多少个版本,决定每个版本的数据质量等。第二,不管是在经济学领域还是计算机领域,现有的定价技术都无法适应动态市场变化下的数据定价问题。数据消费者的数据估值会随着数据的时效性而动态波动,如何设计适应市场环境变化的在线学习机制与动态定价机制?第三,已有的定价技术忽略了数据消费者可能的策略性购买行为,比如套利行为与估值信息谎报行为。我们需要明确数据交易中消费者可能的策略行为,并设计防套利性的数据定价机制。
3.基于机器学习的定价技术
在基于机器学习服务的数据市场中,数据的价值体现在机器学习模型的训练过程的上下文中。针对特定机器学习任务的新特性,需要设计上下文相关的数据定价策略。Chen等人针对机器学习服务,为机器学习模型的多个版本设计了无套利的定价机制,并通过放松子模(submodular)约束的限制,设计了使售卖机器学习模型的收益最大化的定价机制。但该方法是基于静态数据的,而许多应用都是基于动态和在线数据构建的。为了购买动态数据,买方反复调用卖方的API,因此可能多次支付相同的数据。为了解决上述问题,Upadhyaya等人基于退款的思想,通过修改API以实现最佳的历史感知定价,保证购买者仅对购买的数据收取一次费用,而不会对其进行更新。上海交通大学的吴帆教授团队也对数据动态售卖的场景进行了研究,具体来说,Zheng等人考虑在线数据售卖场景,提出了在线基于查询的数据定价机制,该定价机制是无套利的,并能保证收入最大化的常数近似。而Niu等人提出了一种具有底价约束的上下文动态定价机制,保证平台为数据消费者的顺序查询发布合理价格来最大化其收入。我们可以进一步考虑数据对模型参数信息熵的减少程度来在线衡量数据价值,并借助多臂老虎机的手段对数据进行动态定价。
在数据价值评估阶段,首先采用贝叶斯机器学习框架,刻画机器学习模型在线训练的过程。具体来讲,学习模型参数服从某种概率分布(如高斯分布),在模型训练过程中,当有新的数据加入模型训练时,模型参数的先验分布将依据贝叶斯定理更新,得到后验分布。采用信息论中信息熵的概念量化概率分布的不确定性,通过模型参数的先验分布和后验分布信息熵的减少程度量化新增数据样本对模型训练的效用,评估数据价值。由于信息熵具有可累加性,故可对动态数据价值进行在线评估。最终,形成基于信息熵的在线数据价值评估方法。
在数据定价阶段,针对数据贡献者在机器学习服务中数据价值的上下文相关性,将数据定价建模为上下文多臂老虎机问题,并基于LinUCB算法,在线学习数据贡献者的私人价值信息,找到效用最高的均衡状态来最大化数据交易平台的效用。此外,基于标价(posted price)设计真实的数据定价机制,激励数据贡献者揭示其产生数据的真实成本,将数据采集问题建模为反向拍卖发布价格机制。标价策略在主导策略(dominant strategies)中保证真实性,还具有群防策略性(group-strategy proof)及防范其他数据贡献者的复杂战略行为的能力。
2.4.5 面向特定数据类型的定价方法
1.基于关系数据的查询定价
近年来,数据库领域已经开展过诸多研究关系型数据的定价工作。来自华盛顿大学由Dan Suciu教授领导的研究组是这个方向的开拓者,并且已经推出了数据交易生态系统项目来研究数据交易市场中的一系列相关工作。在他们最早的数据定价文章中,Balazinska等人展望了数据交易市场的前景,并且提出了一种细粒度的数据定价思路。受到传统电子产品“多版本”销售策略的启发,他们将数据库视为不同版本数据产品的合成,每个版本的数据产品对应一个具体的数据库视图。通过确定每个视图的价格,并结合数据库查询的关联规则,即可实现任意视图组合(查询)的自动定价。之后Koutris等人指出工业界中现有数据定价方法的局限性和不灵活性,提出了基于查询的数据定价(query-based data pricing)框架。在该框架中待交易的数据往往存储在结构化数据库中,用户要购买的数据需要通过对数据库的查询获得,因此产生了基于数据库查询的数据定价模型。在该模型下,允许数据卖方指定数据库中特定视图的价格,买方依据自身数据需求进行数据查询以购买所需数据。依据数据库中视图的依赖关系,数据定价模型能够通过指定视图的价格来生成其他任意视图的价格。数据查询价格是一系列能够组合出该查询结果的最优价格,这种设定能够进一步避免用户可能存在的套利行为。在该数据定价模型下,买方可以完全自由地选择购买任意查询的数据产品,卖方也不需要对所有可能的查询设置价格。
基于查询的数据定价方法需要满足两个重要性质:
● 无套利性 (arbitrage-free):以购买全美国的商业数据为例,美国全国的数据价格应该比分别购买50个州的价格之和便宜;
● 无折扣性 (discount-free):除了数据卖家特别指定的折扣之外,没有其他额外的折扣。换句话说,即定价应该是满足抗套利条件下的最大值。
在基于查询的数据定价概念被提出之后,涌现出了大量的相关研究。Lin和Kifer考虑了多种类型的数据查询形式,并且提出了对于任何数据查询方式的无套利定价函数。原始数据查询定价模型限制了数据购买者只能以固定的数量或通过预定义的查询来购买数据。Tang等人对数据库中的每个元组分配价格,然后通过生成满足查询结果的最小元组来定义查询的价格。针对数据购买者的重复和冗余的数据查询,以及为了高效地得出查询结果,Tang等人还提出了使用MiniCon算法对用户提出的查询进行修正,在查询结果一致的情况下,对查询过程进行优化。Li和Miklau提出了基于线性聚合查询的交互式查询定价(interactive query pricing),主要关注关系数据库中的聚合查询,将每个查询视为来自数据库实例单元的线性组合,并且在计算查询价格时充分考虑用户已经支付的查询,以避免对用户重复收费,同时还充分考虑非披露、无套利、无遗憾的要求。
2.面向感知数据定价
由于嵌入式技术和移动网络的发展,固定传感器设备和个人移动智能设备在智能社会(智慧城市、智慧交通等)中扮演了非常重要的角色。由传感器和移动智能设备产生的感知数据具有强烈的时空关联性,比如一个房间的气压传感器的数据与同一房间的温度传感器的数据有明显的空间上的关联性。相邻区域的交通拥堵数据具有时间上的关联性。关联性为数据定价带来了新的挑战,因为用户可以利用时空关联性通过购买不同设备的低精度感知数据来获得更加精确的更有价值的数据,也可以通过购买非目标地点的数据来推测目标地点的数据。这样感知数据对消费者的价值不仅取决于它本身,而且受到关联数据的影响。
针对感知数据真值缺失导致数据价值模糊等问题,学术界通常采用统计学习模型,例如线性回归、高斯过程、时间序列、深度学习模型等来对数据之间的时空关联性建模,并用聚类算法等无监督学习方法处理无标准数据。具体地说,他们将设计基于统计模型的时空关联性模型,用概率分布刻画数据的不确定性,并且使用传统的统计模型对数据的时空关联性进行建模。上海交通大学的吴帆教授团队以高斯过程模型为例,假设不同位置所提交的感知数据服从非独立的概率分布,使用相应的空间位置信息来构建数据分布之间的协方差,多个位置(离散空间)的数据形成联合高斯概率分布,将一个区域内(连续空间)的感知数据的时空关联性建模成多元高斯分布。通过概率分布的协方差信息刻画数据在空间维度的关联性,并指导数据集的价值评估以及使用。以统计概率模型作为数据商品,以模型精度作为数据多版本划分的依据,建立灵活的基于版本划分的数据售卖方式,并创造最大化的利益。
3.面向多媒体数据定价
随着网络技术和移动智能设备的蓬勃发展,在各类信息系统和智能物联网系统中,数据形式更为复杂的文本、图片、音频等多媒体数据已成为主流数据形式。无结构的多媒体数据难以像数值数据一样用统一的标准去衡量其价值。多媒体数据的价值更依赖于模糊的主客观评价,比如图像数据的清晰度、失真程度、内容多样化程度,视频数据的流畅度、清晰度、有无水印等。但这些主观评价无法简单地用数值描述,且单一指标无法完成对数据价值的评估。例如,对于猫狗图像识别分类任务中,高清晰度的小鸟照片反而没有低清晰度的猫狗照片有价值。
面对多媒体数据价值模糊、评估标准难统一的挑战,研究人员首先采用深度学习等技术,进一步提出客观、统一的质量评估标准,以质量标准来衡量多媒体数据的价值。首先,针对图像数据,Kim等人在考虑缺乏充足的标准化样本图片的情况下,采用卷积神经网络预测和评估图片的质量。美国得克萨斯大学奥斯汀分校的Bovik等人针对图片数据提出基于广义回归神经网络的质量评估算法。新加坡南洋理工大学的Lin等人有效地捕捉图像的结构和对比度的变化,构建了基于梯度相似度的图片价值评估算法。Gao等人采用了自然图像统计(natural scene statistics,NSS)特征的非高斯性、局部依赖性和指数衰减特性训练一个多核学习模型,并提出了两种数据质量评价方案:一是直接从自然图像统计特征估计图像质量的整体方案;二是先进行失真分类再进行特定失真价值评价的方案。对于视频数据,Liotta等人针对视频数据在准确性、实时性、适应性和可扩展性方面的表现,提出了一种基于无监督深度学习的在线视频数据价值评估方法。中国科学技术大学的李向阳教授针对某一特定的任务(例如图像分类或情感分析任务),提出了一种面向机器学习任务的高效且可解释的多媒体数据采集方法。该方法主要从任务相关性和内容的多样性来评估,并采用基于局部敏感哈希的采样方法对数据价值进行量化。
另外,具有差异性和互补性的多媒体数据之间可以进行跨模态融合。例如:语音数据和视频数据可以通过多模态融合模型更精准地完成识别任务。多模态数据的差异性和互补性在挖掘了数据更多价值的同时也为数据定价带来了更多困难。研究人员借鉴机器学习中的集成学习(ensemble learning)技术对每一个模态搭建相应的机器学习模型。例如,针对数值数据搭建轻量的逻辑回归模型,针对图片数据搭建适合图片处理的卷积神经网络模型,针对文本数据搭建循环神经网络模型。这样就将多模态融合模型分解为几个简单的子模型,并用投票博弈(voting game)模型构建子模型对最终决策结果的影响以及利用合作博弈的方法构建量化数据对子模型的影响。通过子模型的影响力因子与数据对子模型的影响力因子,对数据进行定价。