论文部分内容阅读
随着Internet的出现,人类已经进入了新的信息时代,信息的获取已经不像过去那样途径单一,内容有限,人们可以通过网络获得各种信息,并且每时每刻都有更多新的信息在产生。然而在给人们带来便捷的同时,不断膨胀的信息也给人们带来了一系列问题,信息的海量规模使得一些真正有价值的信息被淹没在大量无用的噪声信息中间,而一般人缺乏有效的方法或工具进行辨别,使其获取有价值的信息变得更加困难。数据挖掘技术的出现,正是为了帮助人们更有效地从海量的数据中发现有用的知识,帮助人们获得有价值的信息,辅助人们进行决策。同时,由于Internet的发展,海量的Web数据逐渐成为了一个重要的数据源,从静态的HTML页面,数据库中存储的交互信息,用户访问网站留下的日志信息,多元化的数据构成了Web。而在这些数据中,也不乏存在许多有价值的信息,越来越多的研究人员和公司企业都在将数据挖掘技术运用到Web数据挖掘中,以发现潜在的知识以及商业规律。我们发现Web数据中存在大量的分类数据,并且在一些具体应用中,存在挖掘分类数据的需求,以更好地提供决策支持,为此,本文结合实际应用需求提出了关键分类查询,主要工作有以下4个方面:1.对决策支持应用中普遍用到的查询算法Top-K查询、KNN查询、Skyline查询及相关工作进行了讨论,并根据他们的共同特征总结出查找关键的对象是决策支持应用中需求较多的查询任务。2.对Web数据中普遍存在的分类数据及其挖掘价值进行了探讨,并结合决策支持应用中对数据挖掘的需求提出了新问题,关键分类查询。同时我们对新问题进行了详细地分析,给出了两种定义和相应的基本处理算法。3.分析了基本处理算法的复杂度,并针对关键分类查询第二种定义的处理算法,提出了一系列启发式剪枝规则,设计了改进的算法,并通过大量实验验证了改进后算法的有效性和高效性。4.讨论了关键分类查询应用在海量数据环境下可能遇到的性能问题,并应用了Map-Reduce算法框架对处理算法进行分布式改造,使其能够有效处理海量数据,同时,我们也通过实验验证了分布式算法的有效性和高效性。