海量数据关键分类挖掘算法

被引量 : 0次 | 上传用户:romotic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的出现,人类已经进入了新的信息时代,信息的获取已经不像过去那样途径单一,内容有限,人们可以通过网络获得各种信息,并且每时每刻都有更多新的信息在产生。然而在给人们带来便捷的同时,不断膨胀的信息也给人们带来了一系列问题,信息的海量规模使得一些真正有价值的信息被淹没在大量无用的噪声信息中间,而一般人缺乏有效的方法或工具进行辨别,使其获取有价值的信息变得更加困难。数据挖掘技术的出现,正是为了帮助人们更有效地从海量的数据中发现有用的知识,帮助人们获得有价值的信息,辅助人们进行决策。同时,由于Internet的发展,海量的Web数据逐渐成为了一个重要的数据源,从静态的HTML页面,数据库中存储的交互信息,用户访问网站留下的日志信息,多元化的数据构成了Web。而在这些数据中,也不乏存在许多有价值的信息,越来越多的研究人员和公司企业都在将数据挖掘技术运用到Web数据挖掘中,以发现潜在的知识以及商业规律。我们发现Web数据中存在大量的分类数据,并且在一些具体应用中,存在挖掘分类数据的需求,以更好地提供决策支持,为此,本文结合实际应用需求提出了关键分类查询,主要工作有以下4个方面:1.对决策支持应用中普遍用到的查询算法Top-K查询、KNN查询、Skyline查询及相关工作进行了讨论,并根据他们的共同特征总结出查找关键的对象是决策支持应用中需求较多的查询任务。2.对Web数据中普遍存在的分类数据及其挖掘价值进行了探讨,并结合决策支持应用中对数据挖掘的需求提出了新问题,关键分类查询。同时我们对新问题进行了详细地分析,给出了两种定义和相应的基本处理算法。3.分析了基本处理算法的复杂度,并针对关键分类查询第二种定义的处理算法,提出了一系列启发式剪枝规则,设计了改进的算法,并通过大量实验验证了改进后算法的有效性和高效性。4.讨论了关键分类查询应用在海量数据环境下可能遇到的性能问题,并应用了Map-Reduce算法框架对处理算法进行分布式改造,使其能够有效处理海量数据,同时,我们也通过实验验证了分布式算法的有效性和高效性。
其他文献
对中药汤剂中特殊煎法的中药处理方法的变革探讨,最大限度地提高汤剂质量,保证中药汤剂的临床疗效.
敲出反应是研究原子核内部结构的一种有效的方法。本文在前人的研究基础上,重点研究了α集团的敲出反应。我们主要采用了两种光学势:其一是采用常用的Woods-Saxon势VWS(R);其二是
核聚变能目前是认识到的可以最终解决人类能源和环境问题的最重要的途径之一,经过许多科学工作者半个多世纪的努力,可控聚变研究取得了重大的进展。可控核聚变(氘氚聚变)的实现
研究处于从球形核向大变形核过渡区的核不仅可以提供原子核集体激发和单粒子激发两种结构信息,而且还可以提供不同粒子轨道与集体自由度之间的相互作用。特别是A~130过渡区的
目前 ,电子商务正在蓬勃发展 ,它改变了传统商业模式 ,成为未来社会企业的主要经营方式。电子商务从根本上改变了会计所赖以生存的环境 ,本文利用企业再造理论对电子商务环境
能源金融是将能源资源与金融资源整合,能源产业资本与金融资本不断耦合优化,促进能源产业与金融业良性互动、协调发展的一系列金融活动。中国经济发展面临越来越趋紧的资源环
随着国民收入的不断提高和互联网消费模式的常态化,大学生的消费结构也随之发生了改变。基于此,本文通过对互联网消费模式下的大学生消费结构现状以及趋势进行分析得出:未来
近年来,伴随我国经济的飞速发展,交通运输业也加快了发展的步伐,铁路交通成为相关部门关注的重点。混凝土工艺是铁路桥梁建筑施工过程中的关键,它直接影响着铁路桥梁的质量。
本文研究了EAST托卡马克装置中用于中性束注入系统的高压传输线的电磁问题,研究的主要内容是传输线部分电容的计算。根据中性束注入系统的具体情况和高压传输线的设计要求,提
<正>自Banting等1921年开发了药用胰岛素以来,公认是糖尿病治疗史上的里程碑。在胰岛素真正问世前、后的医生,亲眼目睹和经历了"糖尿病高死亡率的无奈",和1922年将胰腺提取物