论文部分内容阅读
在当今数据量呈爆炸式增长的时代背景下,PB级的海量文本数据需要被有效存储,这对传统存储系统的数据管理方式提出了新的挑战:层次化的命名空间管理方式不再适用,急需一种能够基于内容、属性进行搜索的数据管理方式来满足快速定位文本文档的需求。 设计并实现了一个基于海量文本数据的分布式搜索系统DS-MTD,该系统基于Lucene倒排索引框架,将索引文件进行分片并存储到不同的节点上,保证了系统的高性能和高扩展性;综合考虑数据内容匹配度、新鲜度、热度不同维度对用户搜索请求与文档匹配度的影响,采用层析分析法决策各维度的权重值,并根据其最终匹配度对搜索结果进行排序;同时结合Lingo聚类算法,将搜索结果按照不同的主题进行归类,方便用户在搜索结果中查找内容相似的文档。 测试结果表明,DS-MTD系统具有很高的扩展性,其多维度求解文档匹配度的方法能够保证搜索结果中内容相关并且是最近最新的比较热门的数据文档排列在前面,同时采用Lingo聚类算法能够自动从文档中抽取主题并按照不同主题将搜索结果分类,满足用户快速查找内容相似文档的需求。