基于mongodb的倒排索引建立

被引量 : 0次 | 上传用户：gaboo

【摘要】

：

随着Web2.0与云计算的兴起，越来越多的企业选择NoSQL作为企业应用的基本架构。作为非关系型数据库的典型代表，mongodb被更多的选择，用来处理海量数据的存储，因此必然越来越多的应

【作者】

：

刘晓奎

【发表日期】

：

2014年期

【关键词】

：

非关系型 mongodb 倒排表 mapreduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web2.0与云计算的兴起，越来越多的企业选择NoSQL作为企业应用的基本架构。作为非关系型数据库的典型代表，mongodb被更多的选择，用来处理海量数据的存储，因此必然越来越多的应用逐渐转向使用mongodb作为数据库来实现。全文索引检索就是其中的最基础的，典型的应用之一，而倒排索引表的构建正是其中最核心的技术之一。本课题旨在探究一种基于mongodb存储，用于中文全文检索的倒排表的建立的方法，实验的过程以搜狗精简版30M文本分类语料库为实验数据，对其中的一个分类的1900多篇文档进行了简单的去标点，去特殊符号处理，对处理结果进行了中文分词，并基于分词结果直接（没有考虑对分词结果进行停用词消除，词项归一，词形归并，词干还原等关键词提取操作等建立词库的处理）的实现了基于mongodb存储倒排表的，用于全文检索的倒排索引表的构建，过程中应用到了mongodb的mapreduce模块实现了一种简单的分治，归并的倒排表构建策略，最终达到了预期目标，并对实验过程进行了记录，对实验结果进行了简单的分析。

其他文献

准噶尔盆地西北缘九6、九9区吐谷鲁群及西山窑组潜力评价

近年来，勘探评价工作重点多放在新区的认识上，较少有针对老区早期未开发地层的评价。对于新疆油田重油公司，埋深浅、地震资料差，重点的层位如齐古组、八道湾组以及克下组地层经过

学位

潜力评价地层对比解释模板九6九9区准噶尔盆地

公共图书馆读者信息素养教育的思考——基于读者信息素养现状的调查与分析

信息素养是信息时代人们自身生存的基础，是人们适应信息社会发展所必备的基本素养。公共图书馆面向读者开展信息素养教育，不但可提升读者的信息素养，而且可促进图书馆信息资源的

期刊

读者信息素养信息素养教育读者调查公共图书馆

替格瑞洛改善急性冠脉综合征患者氯吡格雷抵抗的研究

背景及目的：随着生活水平的提高，冠心病的发病率逐年上升，严重威胁着我们的健康。目前经皮冠脉介入治疗（Percutaneous CoronaryIntervention,PCI）已经成为急性冠脉综合征（Acute Cor

学位

非ST段抬高型急性冠脉综合征冠脉支架植入氯吡格雷抵抗替格瑞洛高维持剂量血管扩张刺激磷酸蛋白MACE出血事件

农村进城务工女性生计脆弱性改善的公共政策支持

2014年,李克强总理的政府工作报告将“统筹做好保障和改善民生工作,努力实现更加充分、更高质量就业,使劳动者生活更加体面、更有尊严”列为政府重点工作之一,有力地彰显了中

学位

进城务工女性生计脆弱性政策改善可持续生计

食管鳞癌中SOX7基因表达及其甲基化状态研究

目的：我国是食管癌的高发国，由于食管癌临床表现的隐匿性，多数患者就诊时已属中晚期，预后差，严重威胁着人们的健康。因此，探索食管癌的发病机制及寻找有效的基因治疗靶点，是降低食管

学位

食管鳞癌SOX7基因表达甲基化

PACE教学模式实证研究

本研究调查PACE教学模式对英语关系从句短期习得的影响,受试者对PACE教学模式的态度及其原因。PACE教学模式是Presentation(呈现有意义的语言材料)、Attention(注意语言材料

学位

显性语法教学隐性语法教学基于故事的语法教学PACE教学模式关系从句

对韩汉语听说课教学研究

中韩从1992年开始正式建交以来，两国在政治、经济、文化、教育等各个领域交往频繁，因此韩国政府提高了国内汉语教学的力度。根据中国驻韩国大使馆的调查数据显示，截止到2007年普

学位

对韩汉语听说课学生教材教学方法教师

社会网络与移民生计的分化发展

在人类发展历史上,贫困现象和问题一直是困扰很多国家、地区及民众的重大挑战之一。减少和消除贫困是国际社会共同追求的目标。在发展中国家的现代化进程中,贫困与反贫困一直

学位

扶贫移民脆弱性社会网络生计发展分化

姜黄素、去甲氧基姜黄素和双去甲氧基姜黄素对人肝癌细胞HepG2中MMP-2、MMP-9蛋白表达的影响

目的：肝细胞癌（Hepatocellular Carcinoma，HCC）是世界上常见恶性肿瘤，占原发性性肝癌的90％以上。据2002年统计，全世界每年肝癌发病人数约为626000例，死亡598000例，其发病率在常见肿瘤

学位

姜黄素去甲氧基姜黄素双去甲氧基姜黄素细胞周期肝细胞癌转移MMP-2MMP-9

MDR1、GSTP1基因遗传变异与上皮性卵巢癌患者铂类化疗临床预后关系的研究

目的：卵巢恶性肿瘤是女性生殖系统常见的三大恶性肿瘤之一，其中最常见的妇科恶性肿瘤为上皮性卵巢癌（epithelial ovarian cancer，EOC)，它在导致女性死亡的病因中排名第七位，患者5年

学位

MDR1GSTP1单核苷酸多态性（SNP）卵巢上皮性癌铂类化疗临床预后

基于mongodb的倒排索引建立

与本文相关的学术论文