论文部分内容阅读
在快速发展的信息时代,各个行业都会产生大量的数据,这些数据里包含了很多有价值的信息,如果能够合理对其进行挖掘和分析,这些信息能够为企业带来巨大的商业价值,因此,数据的重要性逐渐得到重视和认可。由于消费者对各种数据有各种需求,越来越多的数据可以在网上进行销售和购买,为了促进数据交易活动,需要一种合理的定价机制来为交易的数据分配价格。目前,一般采用数据提供者自主定价的方式,消费者通过浏览分析后决定是否购买或怎么购买,这样的定价方式虽然简单,但交易双方工作量较大;消费者每次只能得到某一数据提供者的数据,无法满足其灵活多变的需求;还有可能出现套利情况。因此,提出了一种更灵活的定价方法:基于查询的数据定价,数据提供者将提前定义好明确价格点的数据库上传到市场服务平台,消费者只需向平台提交查询,平台便能根据数据库、价格点以及查询生成整数线性规划的目标函数和对应的限制条件,求解得到的结果便是该查询的价格。这种定价方法满足无套利和无折扣两个公理,计算出来的价格是最优价格,为交易双方提供了便利。但是,对于每个查询,系统都需要单独生成对应的限制条件并进行求解计算,当查询相关时,有一部分限制条件是重复的,计算价格时对这部分限制条件进行了重复计算,影响了查询效率;而为了避免对求解结果中的相同视图进行重复收费,会在系统中保存查询记录,造成了存储开销;数据库更新时,需要数据提供者定义更新价格,增加了工作量。本文在基于查询的数据定价的基础上,提出了一种改进的定价方法:基于查询的在线数据定价,将数据定价问题抽象成一个在线问题,根据在线算法的特点,求解时要求之前到达的限制条件必须满足,且变量的值不能减小,因此,本文的第一个改进是在系统中保存求解结果中值为1的变量,在为后续查询生成限制条件的过程中判断每一个限制条件是否能被满足,只将不能被满足的限制条件添加到求解队列中,这样改进之后,可以同时避免对相同限制条件的重复计算和对相同视图的重复收费,减少了计算开销,提高了查询效率;而考虑到存储开销和数据库更新的问题,本文的第二个改进是提出了设置期限的策略,分两种情况:对数据更新不敏感的消费者,可以选择注册一个账户并选择一个期限,在有效期内,数据库状态保持不变,系统会保存查询记录,方便消费者能够快速获得结果,到期系统会清空该账户下的所有记录;对数据更新敏感的消费者,在提交查询时选择一个期限,在此期限内,系统保存该查询的记录,每个查询的计算在数据库最新的状态下进行,消费者可以及时得到最新的数据,系统会自动删除到期的记录。期限的设置能有效减少存储开销,也应对了数据库的更新,系统能自动为数据提供者计算更新价格,使整个定价过程更加简单。