2.5 数据定价技术发展趋势
2.5.1 数据定价技术总结
从以上探讨中我们发现系统地研究大数据产品定价方法的研究成果并不多,大数据产品定价问题的研究在工业界和学术界都尚处于起步阶段。探其缘由,虽然数据资产的流通与共享吸引了产学研各界关注和探究的目光,而且数据在机器学习以及人工智能等产业中的价值也是不言而喻的,但数据定价技术作为大数据共享与交易的关键一环,无论国内外理论研究还是在实际数据交易产业中都未形成一个被大家广泛认同的数据定价技术。我们认为当前数据产品定价方法的不足具体表现为以下方面:
● 基于数据要素的定价方法
基于效用的定价方法 以使用数据后的预期收益作为数据 价格,主要考虑了数据的使用价值,即数据给买方带来的效 益。该方法难以对未明确使用用途的数据进行定价。
基于隐私量化的定价方法 以数据隐私暴露风险作为隐私 补偿的标准,并加入数据定价问题考虑,是非常有价值的研 究方向。虽然已经有隐私量化的方法,如差分隐私,但是对 于如感知数据等相关性强的数据隐私量化问题仍然值得探讨。 用户对数据容忍度不同,如何设计基于隐私泄露程度的个性 化数据定价方法也是需要进一步考虑的问题。数据价格信息 也可能会在一定程度上泄露数据的隐私,比如高价格的数据 往往蕴含更多有价值的隐私数据。
● 基于博弈论和微观经济学的定价方法
基于拍卖机制的定价方法 强调了买家对数据的价值,通 过公开拍卖的方式定价,提高了定价的透明度,解决了数据 交易双方信息不对称的定价难点。但需要对数据价值有准确 的估计是拍卖机制的难点。在很多场景下,数据买家对数据 资产也没有准确的估值,难以在拍卖中提出合适的竞价。
基于信息设计的定价技术 打破了数据交易的信息壁垒, 构建了信息对称的数据交易新范式。但是其数据交易模式过 于复杂,理论假设较强,定价方法让数据用户难以理解,接 受度较低。
基于机器学习的定价技术 普遍依赖于机器学习的预测结 果。而机器学习模型的不稳定性与黑盒性质导致数据定价的 结果可能出现难以解释的矛盾,降低用户的交易意愿。
● 基于数据特定类型的定价方法 虽然能够适应特定类型的数据 交易场景,但是其方法标准化程度低、灵活性低。通常是面 向一类数据制定一套方法,难以与其他定价方法相适应,很 难同时考虑数据隐私、效用等定价因素。
基于查询的定价方法 虽然能够通过给视图单元定价,快速地自动派生买家所需查询的价格,但是这种方法的限制条件多、计算复杂度高,需要充分考虑数据库查询间复杂的依赖关系,且容易导致数据隐私泄露的风险。
采用何种形式来售卖多媒体数据仍然是一个值得探讨的问题,基于数据访问接口的订阅是当下比较流行的数据售卖方法,但是多媒体数据容量大,访问复杂,数据订阅无法满足多媒体数据多样化的形式,不利于大数据资源的有效利用。
2.5.2 数据定价技术趋势
在现有数据定价技术的基础上,我们对数据定价技术未来的发展做进一步的展望。
●面向区块链数据交易市场的数据定价技术。众多的数据交易平台已经开始使用区块链技术作为其底层的支撑技术。借助区块链技术,数据交易中的数据权益保障、数据隐私保护、可信安全交易等问题会找到相应的解决方案。基于区块链构建的数据交易市场将形成无中心或者多中心的分布式数据交易模式,如何在分布式数据交易的模式下进行数据定价是未来需要探索的方向。区块链技术的引入也为数据定价方法提供了设计上的便利。比如,我们可以将定价算法直接嵌入智能合约,由智能合约来保证算法的正确运行,自动检测套利行为是否存在;区块链技术还能更好地实现数据共享中的收益分成,数据定价产生的收益以夏普利值等公平性指标为指导,结合区块链安全可信的数据追溯技术,完成数据价值链条上的公平收益分配。
●面向联邦学习数据共享系统的数据定价技术。联邦学习是数据共享的一种新范式:在不共享原始本地数据的情况下,通过分布式机器学习技术,共享本地模型参数,聚合更新全局模型,从而完成多终端的数据共享与知识传递。如何在联邦学习的框架下进行数据定价与收益分成也是未来重要的研究方向。在联邦学习中,终端数据来源多样,分布各异,在无法访问终端本地数据的情况下,如何制定个性化的数据定价技术,衡量数据源数据价值,是联邦学习中的基本问题。联邦学习中的数据定价技术还需要进一步克服数据终端可能存在的恶意攻击行为,数据终端可能通过修改本地数据来获得更多的数据报酬,或者通过“搭便车”的方式只利用全局模型而不共享数据。因此,我们需要进一步考虑具有鲁棒性抗攻击的数据定价技术。