论文部分内容阅读
近年来,海量的信息已经变得无处不在,面对庞大的数据量,如何有效及时地对数据进行处理是目前面临的一个重要挑战,否则很多数据就会失去它应有的价值。幸运的是极大点查询就是一个有效的数据处理工具,可以帮助人们快速地从大量的信息中找到感兴趣的内容。极大点查询产生于计算几何,由于其良好的应用前景,其在多目标优化、数据库等领域出现了越来越多的各种应用。但面临的问题是这些应用常常需要巨大的计算资源,使得传统的极大点查询算法很难有效地使用。针对这个问题,论文主要对极大点查询算法的性能优化和应用方面进行了研究。论文首先对目前极大点查询算法的研究现状进行了综述。从内存储算法和外存储算法两个方面,全面分析了已有的极大点查询算法。在此基础上提出基于体积优先策略的极大点查询算法,设计了一种线性I/O次数的极大点查询外存储算法。将设计的两种算法结合应用到数据库的Skyline查询处理和金融领域的资产配置问题中,取得了良好的实验效果。本论文的研究工作和创新主要包括以下4个方面:(1)构造了一种基于体积优先策略的极大点查询算法。通过实验发现算法的效率高于Bently等人提出的经典的MTF算法。通过理论证明,算法的时间复杂度以极高的概率保持线性时间。部分解决了没有线性时间复杂度的极大点查询算法这一公开问题。其高维空间上的理论证明对极大点查询算法在高维空间上的复杂性分析提供了有益的参考。(2)当数据超过内存的限制时,经典的算法往往无法很好地处理这些数据,近年来算法研究已经关注于处理海量数据的外存储算法。这时算法的效率通常以内外存之间数据输入输出次数(I/O次数)来衡量。对于极大点查询问题而言,目前还没有线性I/O次数的外存储算法。对此,本论文提出了一种针对海量数据的线性I/O次数的极大点查询算法。算法针对独立同分布数据,利用了极大点的数目概率特性。并通过实验和理论证明了算法的有效性。(3)数据库Skyline查询处理是近年来数据库查询领域的研究热点,极大点问题与Skyline查询有着天然的联系。本论文将设计的算法结合应用到数据库的Skyline查询处理中,取得了良好的实验效果,使得整个算法的内存时间复杂度和I/O复杂度均达到了线性时间。(4)金融领域存在海量的数据信息,如何从这些数据中的找到有价值的信息指导投资决策是在现代投资理论的重要问题之一。本论文在尝试利用极大点查询指导投资决策的过程中,在研究资产类别的历史表现时发现了一些有趣的经济现象,并首次系统的提出了一种基于复杂网络社团结构的股票分类方法和利用极大点查询进行投资组合的新的策略。