论文部分内容阅读
全文信息检索技术是当前时代迅速获得准确信息的重要手段之一。在全文信息检索技术中最重要的部分是索引的管理。大数据时代,集中式的索引管理方式面临巨大挑战,最佳的解决方案之一是创建分布式索引。在分布式索引技术中索引分割方式主要有基于文档分割和基于词项分割,两者各有优势与不足,目前对分布式索引技术的研究主要是对两种索引分割方式的改进。本文研究了其他学者对不同索引分割方式的改进,对基于文档分割索引的方式进行了研究,在前人基础上提出了基于聚类的分布式索引构建方法。该方法通过聚类操作将原始文档分割为若干个集合,然后在每个集合创建局部索引。该方法发挥了基于文档分割索引方式的系统负载均衡、网络负担较小的优势,同时避免了文档随机分配导致的检索时需要遍历所有局部索引的缺点。本文通过将K-means聚类算法进行优化以及并行化并应用于文档聚类分割,提升了系统效率,优化了索引分割效果,使整个系统更加均衡稳定。本文研究了常见的文本聚类算法,通过研究其他学者对K-means算法的优化方法,发现大部分的优化方法需要很高的计算量,不适用于大数据环境,因此在前人基础上提出了一个针对大数据环境的基于样本聚类的优化K-means算法:SCB-K-means算法。该算法基于对样本的多次数轮聚类计算聚类算法的初始聚类中心,有效的提升了聚类效果,在使用该算法分割文档并创建的索引上的检索取得了较好的效果。最后本文结合Hadoop框架,使用HDFS和MapReduce计算模型实现了SCB-K-means算法的并行化,并将其应用在分布式索引创建的文档分割部分,在HDFS中使用本文方法对一个较大规模文档集创建了分布式索引,并通过多个实验验证了本文方法的有效性。