论文部分内容阅读
近年来,流数据挖掘与管理成为学术界和工业界所共同关注的问题。随着skyline计算在多标准决策系统、城市导航系统、数据挖掘和可视化、智能防御系统、以及地理信息系统等领域的广泛应用,有效地在数据流上实现skyline计算成为数据挖掘领域的研究热点。
所谓数据流,是指连续、实时、有序的数据项序列。而由于数据流的数据具有实时、规模宏大、次序独立以及只能一次读取等特点,使得skyline查询处理算法必须能够高效地处理数据流中到来的每一个对象,并且要有较低的时间复杂.度。但是,从目前来看,现有的数据流上skyline查询处理算法仍然存在着很多问题,比如大量数据计算时对数据的利用不合理导致时间空间的浪费;由于对数据的去除率不足,使得进行skyline计算时部分操作重复;没有充分利用算法执行期间已经产生的skyline集合,导致算法性能较低。针对以上问题,本文研究了一种基于最近邻过滤的skyline快速查询算法,尽早地淘汰那些不再有机会加入skyline的对象,以提高算法查询效率。然后,将skyline计算应用到无线传感器网络中,研究了一种基于簇结构的近似skyline查询算法,在保证近似精度的同时降低网络的通信代价。本文的主要工作如下:
(1)对与本文问题相关的基于数据流的skyline计算进行剖析,指出数据流上的skyline查询结果是一个不断演化的过程,从而蕴含着诸多难点与挑战,分析需要解决的问题,并引出本文所致力的工作。
(2)提出基于最近邻过滤的skyline快速查询算法,解决现有算法对数据对象去除率不足的问题。通过利用最近邻过滤的思想,在预处理模块采用欧氏距离来定义一个阈值。其中,阈值定义为所有当前skyline点与原点距离的最大值。然后根据支配的定义,从新插入的数据对象中,将距离大于阈值的对象提前淘汰,以有效减少资源的消耗,降低时空复杂度。
(3)设计一种簇结构来组织无线传感器网络中的传感器节点。这种簇结构可以在进行skyline查询时形成一条查询路径,查询结束后就可以按此路径反向收集数据,从而减少网络开销。同时,这种簇结构可以达到负载平衡,从而有效地进行查询处理。
(4)针对无线传感器网络,提出一种基于簇结构的近似skyline算法。根据用户指定的近似度确定一个过滤阈值。簇中每个存储节点计算自己的数据属于skyline查询结果集的概率,当且仅当该概率大于此过滤阈值时该节点才被访问。由于每个传感器节点只计算自己的数据,无须与其它节点的数据进行比较,从而可避免大量的网内通信开销。实验结果表明,本算法在保证近似精度的同时,节省了更多的网络能量,降低了网络的通信代价,从而延长无线传感器的使用寿命。