基于Solr实现农业信息扩展检索的研究

来源 :河北农业大学 | 被引量 : 4次 | 上传用户:zhihong0223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学的进步和信息技术的不断发展,网络检索技术也在不断进步。由于信息快速增长,给用户的信息查询带来了很大的困扰,当今的很多搜索引擎大都是基于关键词的检索,在索引中查找出与关键字相匹配的记录返回给用户。对于农业信息检索方面,这种检索方式有一定的弊端,因为地域、民族、生活习惯用语的不同,人们在表达同一农业概念的时候会使用不同的词汇,有些属于农业方言词汇的范畴,这些词语一般都是同义词,同时也会遇到不知道具体的关键字进行模糊查询的情况,检索结果往往不尽如人意。本文在深入研究全文检索基本原理和中文自动分词基本理论的基础上,结合全文搜索服务器Solr在查询性能,可配置可扩展方面的优越性,提出了基于Solr的农业信息扩展检索系统。构建了基于哈希机制的农业专业分词词典,设计了与词典相匹配的基于哈希机制的最大正向匹配算法来配合词典进行分词操作,通过把分词模块内嵌到Solr中,完善了Solr的分词体系。通过对同义词存储结构的研究,本文设计了双向链条同义词存储结构,把同义词词典内嵌到的分词词典中,散列化存储。建立索引时调用同义词典,利用Solr中设置位置增量为0的方法把同义词写入到索引相同位置,完成索引的添加工作,扩展了检索范围,解决了由于表达习惯和模糊查询所带来的问题。改进了Solr自带的结果排序算法,提出了与Solr相结合的向量空间模型排序算法,根据文档相似度计算进行结果排序。本文在solr1.4的平台上进行二次开发,对分词模块、扩展模块以及排序模块中的算法进行改进,以弥补平台对农业信息处理的不足,设计实现了农业信息扩展检索实验平台并进行系统测试,测试结果表明对于农业信息的扩展检索检索结果的覆盖率明显提高,很大程度上提高了查全率,同时检索时间增加不明显。实现了预期目的,给农业信息用户查询带来了便利。
其他文献
遗传算法是现代计算机科学与优化理论中被广泛关注的智能进化算法之一,在实际应用中,标准遗传算法存在着许多不足。针对搜索效率低和无客观判敛标准的缺陷,本文提出了一种基于单纯同伦算法的改进遗传算法。单纯同伦算法是求解不动点问题的有效算法,具有收敛快、局部搜索能力强的特点,与全局搜索能力强、无客观收敛标准的遗传算法相结合可以收到较好的效果。改进算法首先将优化问题转换为不动点问题,将n维函数优化问题放到高一
随着人们生活水平的进一步提高,车辆越来越多,高速公路交通拥堵、交通事故等重大交通问题日益凸显,为了解决此类问题,填补空白,创新性的设计了高速公路交通控制器。其利用外场设备
随着互联网和物联网技术的飞速发展,人们身边充斥着大量丰富多彩的网络信息,但是人们难以及时、准确地获取全部的有用信息。目前需要一种在不同环境下,满足不同用户的需求并
标签的质量直接影响着资源的查找、定位与分享的效果,因此进行高效全面的标签挖掘极有必要。在标签挖掘研究中,标签推荐和标签冗余处理是其中的两个重点。针对现存标签推荐方
文献资源是科研人员学习和研究的重要参考资料。如何将价值高的文献优先推荐给文献检索者是一个重要而有意义的问题。传统的文献价值评估方法仅仅依靠文献的被引次数来判断文
产品设计,离不开材料的选材,对材料进行环境适应性试验,是考核材料在自然环境中腐蚀状况的一种主要手段。材料在环境试验中,由于受各种环境因素的影响,其表面会发生各种腐蚀特征现
癌症起源于正常组织在物理或化学致癌物的诱导下,基因组发生的突变,人类有史以来,癌症吞噬了无数人的生命。特别是20世纪50年代以后,癌症发病率和死亡率急剧上升,成为对人类健康危
在信息爆炸的时代,想在互联网如此海量的内容中找出自己满意的资源越来越难,个性化推荐技术的出现逐步在缓解这个棘手的问题。但是个性化推荐技术发展到今天,还是存在很多问
椭圆曲线加密体制中最普遍、最耗时的计算是点的标量乘运算,在整个加密解密过程中占据大部分计算量,因此实现高效的标量乘运算是整个椭圆曲线加密体制的关键。目前,已有几种针对
无线Mesh网络(WMN)是一种与传统无线网络不同的新型高容量、高速率的分布式宽带无线网状网络,也被称为“多跳(multi-hop)"网络。在无线Mesh网络中使用定向天线来部署网络节点