基于聚类的海量文档集分布式索引构建方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:to_3000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文信息检索技术是当前时代迅速获得准确信息的重要手段之一。在全文信息检索技术中最重要的部分是索引的管理。大数据时代,集中式的索引管理方式面临巨大挑战,最佳的解决方案之一是创建分布式索引。在分布式索引技术中索引分割方式主要有基于文档分割和基于词项分割,两者各有优势与不足,目前对分布式索引技术的研究主要是对两种索引分割方式的改进。本文研究了其他学者对不同索引分割方式的改进,对基于文档分割索引的方式进行了研究,在前人基础上提出了基于聚类的分布式索引构建方法。该方法通过聚类操作将原始文档分割为若干个集合,然后在每个集合创建局部索引。该方法发挥了基于文档分割索引方式的系统负载均衡、网络负担较小的优势,同时避免了文档随机分配导致的检索时需要遍历所有局部索引的缺点。本文通过将K-means聚类算法进行优化以及并行化并应用于文档聚类分割,提升了系统效率,优化了索引分割效果,使整个系统更加均衡稳定。本文研究了常见的文本聚类算法,通过研究其他学者对K-means算法的优化方法,发现大部分的优化方法需要很高的计算量,不适用于大数据环境,因此在前人基础上提出了一个针对大数据环境的基于样本聚类的优化K-means算法:SCB-K-means算法。该算法基于对样本的多次数轮聚类计算聚类算法的初始聚类中心,有效的提升了聚类效果,在使用该算法分割文档并创建的索引上的检索取得了较好的效果。最后本文结合Hadoop框架,使用HDFS和MapReduce计算模型实现了SCB-K-means算法的并行化,并将其应用在分布式索引创建的文档分割部分,在HDFS中使用本文方法对一个较大规模文档集创建了分布式索引,并通过多个实验验证了本文方法的有效性。
其他文献
图像匹配是图像处理领域的基础问题,它是将不同时间,或不同视角下获得的同一场景的两幅或是多幅图像进行匹配。图像匹配技术广泛应用在导航定位、目标识别、运动分析、立体视
嵌入式视频监控越来越普及,本文研究的则是基于现场图片的远程监测。虽然与视频相比,图片的信息量不够丰富,但该方案节省流量、降低开销、优化网络环境,更重要的是这样的装置
一直以来,安全问题都是电子商务难以解决的问题。在解决电子商务安全问题中,普遍采用的是利用加入密码对电子商务中的信息进行加密。但是,由于加入密码后,信息转变成密文在网络中
随着多媒体技术的发展和Internet的普及,数字产品的信息安全和版权保护问题日益突出。信息隐藏技术正是在这种情况下迅速发展的。而数字水印作为信息隐藏技术的一个重要分支,
近年来,互联网搜索引擎得到迅猛发展和广泛普及,但大粒度输入的搜索需求被各大搜索引擎所忽视;而且,尽管用户通过搜索引擎能够快速检索出大量文档,但返回的文档中往往只有少
学位
网络附属存储系统是一种特殊的专用数据存储系统,在使用、管理、维护上都具有简单、方便、可扩容、大吞吐量等优良的特性,可提供跨平台文件共享功能,是存储机载数据的理想环
目前,信息技术、网络技术发展迅速,但企业和政府部门在以往开发信息系统时缺乏统一的部署,异构问题的因此日益严重,数据交换困难,形成了信息孤岛问题。在信息化的趋势下,迫切
大规模开放在线课程(massive open online courses, MOOC)作为一种新兴的教育模式,自2012年以来,随着美国Coursera、Udacity、edX三大课程提供商的兴起,迅速在全球掀起一股在
近年来云计算和大数据应用的发展如火如荼,作为其基础设施的大规模数据中心等网络设备的能量消耗问题越发凸显。当今网络中普遍存在着大量的路径冗余,链路利用率不均衡和非常