分布式全文检索系统中索引平台和信息过滤的研究与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zlp_dream
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的飞速发展,数据和信息充斥着社会生活的各个领域。人们的日常行为逐渐和网络密不可分,人们利用网络获取新闻、进行社交活动和即时通讯,发送和记录工作文档等,这些行为产生的数据都被存储在网络中。由于网络和大数据带来的变革,人们日常获取的信息量在急速增加,人们获取信息的方式也更为复杂和多样。分布式计算技术和全文检索技术是应对大数据洪流的有效工具,前者能够负载海量数据,后者能够在大规模数据中快速检索到有用信息。本文的研究背景是分布式全文检索系统,该系统针对海量多格式文件进行存储并支持快速文本检索。系统采用分布式架构设计,能够并发完成文件预处理、建立索引及存储功能,并将文件存储在分布式文件系统中。分布式全文检索系统包含如下结构:文件预处理前端、分布式索引平台、分布式文件存储系统、索引管理平台和web检索平台。其中,文件预处理前端和分布式索引平台协同完成对大规模多格式文件中文本内容的索引任务;索引管理平台和web检索平台协同完成对索引文件的管理和检索任务;分布式文件存储系统负责为系统中的各个模块提供文件存储和管理支持。本文主要设计并实现了分布式全文检索系统中的分布式索引平台,索引平台基于Hadoop分布式计算库构建,实现了对海量文本文档并发建立索引。本文提出了索引平台的基本架构,阐述了索引平台的分布式计算过程、索引平台中的共享与并发机制和索引评分机制等。本文还设计实现了文件预处理前端中的信息过滤模块,信息过滤模块可实现基于关键词的文档过滤功能,识别系统不需要处理的文档。信息过滤模块主要包括以下内容:单模式匹配模块、多模式匹配模块以及与或匹配模块。本文研究了每个模块相关的基本算法,针对算法在中文环境下实际应用中的不足进行了改进,测试结果表明改进后的算法性能得到了进一步提升。
其他文献
非负矩阵分解是从“整体的感知是由组成整体的部分感知”思想构成的。它将原矩阵通过非负约束分解成基矩阵和系数矩阵,原矩阵可以看成基矩阵中所有列向量的加权和,它分解的结果
实现对水下低速机动目标空间轨迹的精确跟踪,在UUV需要完成的诸多水下作业中都扮演着举足轻重的作用。UUV通过自身所携带传感器获得的测量数据需要进行去除噪声和平滑拟合等处
配电网规划是配电网建设的重要依据,而配电网建设质量的好坏和电网结构的合理性直接关系到社会和经济的发展,与人民生活息息相关。因此,对配电网规划方案的综合评估与决策,不仅具
现实世界中,大多数的计算机视觉任务都与人类的活动有关,比如智能人机接口、虚拟现实、高级用户接口、智能环境、娱乐、智能视频监控系统、运动分析、医学、教育等。三维人体