基于mongodb的倒排索引建立

被引量 : 0次 | 上传用户:gaboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0与云计算的兴起,越来越多的企业选择NoSQL作为企业应用的基本架构。作为非关系型数据库的典型代表,mongodb被更多的选择,用来处理海量数据的存储,因此必然越来越多的应用逐渐转向使用mongodb作为数据库来实现。全文索引检索就是其中的最基础的,典型的应用之一,而倒排索引表的构建正是其中最核心的技术之一。本课题旨在探究一种基于mongodb存储,用于中文全文检索的倒排表的建立的方法,实验的过程以搜狗精简版30M文本分类语料库为实验数据,对其中的一个分类的1900多篇文档进行了简单的去标点,去特殊符号处理,对处理结果进行了中文分词,并基于分词结果直接(没有考虑对分词结果进行停用词消除,词项归一,词形归并,词干还原等关键词提取操作等建立词库的处理)的实现了基于mongodb存储倒排表的,用于全文检索的倒排索引表的构建,过程中应用到了mongodb的mapreduce模块实现了一种简单的分治,归并的倒排表构建策略,最终达到了预期目标,并对实验过程进行了记录,对实验结果进行了简单的分析。
其他文献
近年来,勘探评价工作重点多放在新区的认识上,较少有针对老区早期未开发地层的评价。对于新疆油田重油公司,埋深浅、地震资料差,重点的层位如齐古组、八道湾组以及克下组地层经过
信息素养是信息时代人们自身生存的基础,是人们适应信息社会发展所必备的基本素养。公共图书馆面向读者开展信息素养教育,不但可提升读者的信息素养,而且可促进图书馆信息资源的
背景及目的:随着生活水平的提高,冠心病的发病率逐年上升,严重威胁着我们的健康。目前经皮冠脉介入治疗(Percutaneous CoronaryIntervention,PCI)已经成为急性冠脉综合征(Acute Cor
2014年,李克强总理的政府工作报告将“统筹做好保障和改善民生工作,努力实现更加充分、更高质量就业,使劳动者生活更加体面、更有尊严”列为政府重点工作之一,有力地彰显了中
目的:我国是食管癌的高发国,由于食管癌临床表现的隐匿性,多数患者就诊时已属中晚期,预后差,严重威胁着人们的健康。因此,探索食管癌的发病机制及寻找有效的基因治疗靶点,是降低食管
本研究调查PACE教学模式对英语关系从句短期习得的影响,受试者对PACE教学模式的态度及其原因。PACE教学模式是Presentation(呈现有意义的语言材料)、Attention(注意语言材料
中韩从1992年开始正式建交以来,两国在政治、经济、文化、教育等各个领域交往频繁,因此韩国政府提高了国内汉语教学的力度。根据中国驻韩国大使馆的调查数据显示,截止到2007年普
在人类发展历史上,贫困现象和问题一直是困扰很多国家、地区及民众的重大挑战之一。减少和消除贫困是国际社会共同追求的目标。在发展中国家的现代化进程中,贫困与反贫困一直
目的:肝细胞癌(Hepatocellular Carcinoma,HCC)是世界上常见恶性肿瘤,占原发性性肝癌的90%以上。据2002年统计,全世界每年肝癌发病人数约为626000例,死亡598000例,其发病率在常见肿瘤
目的:卵巢恶性肿瘤是女性生殖系统常见的三大恶性肿瘤之一,其中最常见的妇科恶性肿瘤为上皮性卵巢癌(epithelial ovarian cancer,EOC),它在导致女性死亡的病因中排名第七位,患者5年