基于Lucene的基础排序算法的研究及其改进算法的应用

被引量 : 3次 | 上传用户:da_yu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪以来,互联网得到了迅速发展,互联网的信息资源越来越丰富,信息量越来越大,呈指数级增长。而人们对互联网的依赖越来越紧密,在互联网上查询信息资源也越来越频繁。互联网的信息资源如此巨大,想要快速、准确地在海量的信息资源库中查询到所需的资源,就必须使用良好的搜索引擎工具。搜索引擎为网络用户提供了信息检索服务,属于互联网应用软件,该系统按照一定的检索策略为用户提供信息检索服务,并将检索结果排序为用户提供互联网信息查询服务。目前,随着搜索引擎技术的发展,越来越多的机构和人员将搜索引擎作为研究热点,为此,Apache基金会推出了一个开源的全文搜索引擎工具包Lucene。本论文采取两种研究方案,先在Lucene全文搜索的功能角度去研究数据排序算法,通过研究现有的排序算法:倒排算法查询速度快、存储空间小,可以提供排序查询功能但是不能快速的支持短语查询,不能很好适应中文等词边界未确定语言。后缀树和后缀数组索引模型支持短语查询与自索引功能并且对词边界未确定语言有很好适应性但是不支持排序查询;再分析各自的优缺点进行对比,进而得出其适用于Lucene全文检索领域的算法。再通过对常用算法的应用研究,提出一种改进的数据排序算法:SA-PL索引模型,该模型利用后缀数组可以支持短语查询、自索引和词边界未确定语言适应性且与后缀树相比存储空间小的特点,将后缀数组与倒排表相结合。根据SA-PL索引模型概念,设计了SA-PL-0索引模型。在SA-PL-0的基础上提出一种通过移除较短倒排表对索引空间进一步压缩的索引模型SA-PL-1。该模型可提高查询速度、减少存储空间,进而实现Lucene环境下数据排序的高效性。最后选择合适的平台和环境对改进算法进行实验检验,实验表明,SA-PL-0和SA-PL-1索引模型可以提供排序查询、短语查询和自索引功能并且对词边界未确定语言有很好适应性,其索引存储空间和索引查询时间综合性能显著优于以往的索引模型。
其他文献
《燕行录》是古代东亚地区重要的"域外汉籍",它的体裁各异,包括日记、诗歌、杂录笔谈等。其记载内容更是包罗万象,有对中国山川风貌的描写、风土民俗的记述,亦有对中国时事政
在同时考虑随机性不确定事件和模糊性不确定事件对电网规划影响的基础上 ,综合应用概率论与模糊集合论 ,提出对电网规划方案进行可靠性评估的模糊可靠性评估方法。应用概率统
传统心理语言学由于对形式主义的科学方法的迷恋而越来越为学界诟病,而后现代主义思潮的深入影响呼唤着对心理语言学进行重新思考。借助话语分析和社会心理学的方法,心理语言
香附治疗冠心病的机制主要在于疏肝解郁、行气止痛、活血通经的作用;临床常用香附配黄连行气泻火,配木香行气止痛,配丹参行气化瘀,配枳壳疏肝理脾,配白芍理气养血,辨证治疗冠
在环境系统评价中,水环境质量等级评价是其中十分重要的工作.鉴于对水环境研究中,水质级别为分类变量不能利用传统回归方法分析的特征,基于logistic回归方法建立了一种水质级
生物礁由生物生长堆积而成,其形成条件与造礁生物的生存环境相关,主要包括海水的温度、盐度和溶解氧的含量;海水深度、透光度和海平面的升降变化;季风、海流、热带气旋和太阳
<正>加大责任、加强监督、加重处罚,是新《安全生产法》的题中之义。我国安全生产或将迎来史上最严《安全生产法》。经全国人大常委会审议并于今年12月1日起施行的新修订的《
严家炎主编的《二十世纪中国文学史》,可谓十多年来现当代文学研究最重要的标志性成果。该书引发的现代文学研究"边界"以及评价标准等问题,亦是近年来最受关注的问题。事实上
随着信息时代的到来,网络与计算机技术飞速发展与更新,数字化成为了档案管理工作未来发展的必然趋势。实现档案管理数字化将促进档案管理效率与水平的有效提高。我国企业事业
卵巢早衰的病因复杂 ,自身免疫是其中一个较重要的因素。该文从卵巢早衰与自身免疫性内分泌疾病的关系、卵巢早衰患者体内存在多种自身抗体及免疫异常、卵巢早衰的卵巢组织学