论文部分内容阅读
随着Web2.0与云计算的兴起,越来越多的企业选择NoSQL作为企业应用的基本架构。作为非关系型数据库的典型代表,mongodb被更多的选择,用来处理海量数据的存储,因此必然越来越多的应用逐渐转向使用mongodb作为数据库来实现。全文索引检索就是其中的最基础的,典型的应用之一,而倒排索引表的构建正是其中最核心的技术之一。本课题旨在探究一种基于mongodb存储,用于中文全文检索的倒排表的建立的方法,实验的过程以搜狗精简版30M文本分类语料库为实验数据,对其中的一个分类的1900多篇文档进行了简单的去标点,去特殊符号处理,对处理结果进行了中文分词,并基于分词结果直接(没有考虑对分词结果进行停用词消除,词项归一,词形归并,词干还原等关键词提取操作等建立词库的处理)的实现了基于mongodb存储倒排表的,用于全文检索的倒排索引表的构建,过程中应用到了mongodb的mapreduce模块实现了一种简单的分治,归并的倒排表构建策略,最终达到了预期目标,并对实验过程进行了记录,对实验结果进行了简单的分析。