企业级海量数据搜索引擎相关技术实现与优化

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：skyzbc

【摘要】

：

企业内部有大量文档资料需要查询时,往往会使用搜索引擎进行全文检索。目前,行业内比较通用的解决方案为使用开源的分布式搜索引擎Elastic Search。然而文档资料与通常我们看

【作者】

：

赖旦冉

【出处】

：

华南理工大学

【发表日期】

：

2016年期

【关键词】

：

搜索引擎 ElasticSearch 文档格式转换及拆分 Learning to Rank 关键词提取摘要提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

企业内部有大量文档资料需要查询时,往往会使用搜索引擎进行全文检索。目前,行业内比较通用的解决方案为使用开源的分布式搜索引擎Elastic Search。然而文档资料与通常我们看到的通用搜索引擎的搜索单元有较大区别,文档资料的大小远大于web页面的大小。此时,在应对大量文档检索时,通用的搜索引擎在处理这种千万级别甚至亿级别大规模文档检索时,性能表现不佳。大型企业常常需要使用搜索引擎对企业内部的文档资料进行全文检索。目前,较为通用的方式是实用开源的分布式搜索引擎如Solr、Elastic Search等。但企业内部的文档资料与普通的搜索对象(例如Web页面、日志、邮件等)存在着较大的区别,其中最重要的区别就是文档资料的大小远大于普通搜索单元的大小。因此,通用的搜索引擎在处理这种千万级别甚至亿级别大规模文档检索时,会出现性能不佳、搜索展示效果不友好等缺点。本论文提供了一个海量文档数据搜索引擎的优化方案,核心是采用开源的分布式搜索引擎Elastic Search。本论文从业务出发对Elastic Search的使用进行优化,包括对索引流程进行优化、索引存储策略优化、对文档进一步处理并减小搜索单元、优化在线展示方案等等,其中与索引相关的主要工作为将文档转换为HTML格式并且对转换后的HTML文档按照相应规则进行拆分。在保留原有搜索功能不变的情况下,将文档拆分成了更小单元,使索引单元更符合搜索引擎结构,相对应解决搜索效果不好、搜索展示效果不佳以及高亮时间长等问题。通过测试,文档转换和拆分的单机性能能够达到2m/s以上,转换和拆分的正确率达到了85%以上,文档经过转换和拆分后索引的查询响应速度在一定数量级上提高了25%。本论文还针对搜索用户体验,开发了一些搜索引擎的核心功能,包括关键词提取以及摘要提取功能。一、关键词提取模块致力于解决搜索中搜索权重和搜索体验问题,在搜索时,匹配到的关键词有更高的搜索权重,另外关键词有利于用户更直接了解搜索到的文档。该模块主要实现了几种关键词提取技术模型(包括新词发现、基于特征的抽取、基于图的抽取),并通过Learning to Rank的机器学习方法选出最佳的关键词结果。最终达到F值50%以上。二、摘要提取模块致力于提升搜索中的用户搜索体验,为用户快速了解文档内容提供依据。该模块主要实现了几种摘要提取技术模型(包括基于特征的提取、基于图的提取、基于聚类的提取),并通过Learning to Rank的机器学习方法选出最佳的摘要结果。最终达到F值50%以上。本论文的研究为类似场景的企业级搜索引擎的优化提供了一种可行的解决方案。目前的开源分布式搜索引擎虽然已经达到了即插即用的水平,但针对某一特定场景的搜索优化和搜索相关的辅助功能缺少比较完整的实施方案。本论文致力于从真实的业务场景和实际应用出发,构建针对海量文档数据的高可用性、高性能且用户友好的搜索引擎,并且针对实施方案进行试验对比。

其他文献

基于AHP和结构熵权的公共建筑绿色评价研究

随着环境问题的不断加剧,雾霾天气的反复出现,给人们的健康造成严重的伤害。如何保护和改善环境受到社会的广泛关注。在国家对治理环境污染的大环境下,建筑行业的高能耗应该

学位

绿色建筑公共建筑绿色评价体系评价指标权重

新喋呤与内毒素对烧伤后多器官功能障碍综合征的诊断价值

目的：探讨循环新喋呤与内毒素对严重烧伤后多器官功能障碍综合征（Ｍｕｌｔｉｐｌｅｏｒｇａｎｄｙｓｆｕｎｃｔｉｏｎｓｙｎｄｒｏｍｅ，ＭＯＤＳ）的诊断价值；方法：对４７例烧伤面积（ＴＢＳＡ）大于３０％（３０％～１００％）患者血清新喋呤、血浆内毒素水平的变化进行动态观察。分别计算新喋呤、内毒素

期刊

烧伤新喋呤内毒素多器官功能障碍综合征诊断burnsneopterin endotoxinmultiple organ dysfunction s

浅析显微激光拉曼光谱实验教学

通过开设激光拉曼光谱实验，注重基础理论与基本技能培养，提出了与生活紧密联系的实验内容。激发了学生的学习兴趣和科学研究热情，增强了学生的动手能力，提高了实验教学效果，探索建

期刊

激光拉曼光谱实验教学教学改革Laser Raman spectroscopy experimental teaching teaching reform

体外膈肌起搏器治疗顽固性呃逆30例分析

<正> 凡呃逆经常规应用镇静剂、解痉剂、针刺、中药和屏气等反复治疗无效者为顽固性呃逆。我们在体外膈肌起搏器(EDP)通过刺激膈神经,改善慢阻肺通气功能的启发下,自1991年起

期刊

EDP顽固性呃逆体外膈肌起搏器

巧行多样策略,开启歌唱之门

歌唱,它作为幼儿园开展音乐教学的一种重要手段和方式,能使孩子情感得到熏陶、个性得到培养,以及创新能力得到激发等。而在歌唱教学中,我发现小班的一些孩子学唱的积极性、主

期刊

歌唱活动歌唱教学

拒绝接受普世的整容术郑戈教授答《司法和国家权力的多种面孔》

主持人:把“司法”和“权力”比作“面孔”这让人既觉得新奇,又有醍醐灌顶之感,单凭这个书名便足以引起读者对此书尤其是对作者的兴趣。郑老师能否先向大家介绍一下达玛什卡

期刊

《司法和国家权力的多种面孔》法律移植整容术

微生物絮凝剂的研究及应用进展

絮凝沉淀是常用的污水处理方法，由于无机絮凝剂的二次污染、有机高分子絮凝剂对人体的危害，研究新型、高效、无毒的絮凝剂成为污水处理中的重要内容。介绍了微生物絮凝剂的特点

期刊

微生物絮凝剂工业废水应用研究

酱油卫生状况模糊评价模型的建立

目前酱油卫生状况采用单项的议价方法，存在着轻重不分等不科学因素。如食勖超标与大肠菌超标及重金属超标有着极大的差别。为了消除这种差别，根据糊数学原理，建立Ｍ综合评价模型（１）对

期刊

酱油卫生状况评价模型建立soy Hygiene condition evaluation model

探究工程管理系统思维与工程全寿命期管理

随着经济建设的不断加快和建筑行业的蓬勃发展，工程管理工作面临着许多新的变化和挑战，传统的工程管理系统显然已经无法满足新时期人们对工程管理质量的要求，因此，以创新性的工程

期刊

工程管理系统思维全寿命期管理

西昆仑康西瓦西部早古生代侵入岩的岩浆混合作用

三十里营房以北广泛发育早古生代侵入岩,据岩性可分为中基性、中酸性和酸性3类。中基性岩以辉石闪长岩为主,暗色矿物中常见辉石,斜长石多为中长石。中酸性岩以石英闪长岩为主

期刊

西昆仑康西瓦西部早古生代岩浆混合作用壳幔作用造山带

企业级海量数据搜索引擎相关技术实现与优化

与本文相关的学术论文