论文部分内容阅读
随着科学的进步和信息技术的不断发展,网络检索技术也在不断进步。由于信息快速增长,给用户的信息查询带来了很大的困扰,当今的很多搜索引擎大都是基于关键词的检索,在索引中查找出与关键字相匹配的记录返回给用户。对于农业信息检索方面,这种检索方式有一定的弊端,因为地域、民族、生活习惯用语的不同,人们在表达同一农业概念的时候会使用不同的词汇,有些属于农业方言词汇的范畴,这些词语一般都是同义词,同时也会遇到不知道具体的关键字进行模糊查询的情况,检索结果往往不尽如人意。本文在深入研究全文检索基本原理和中文自动分词基本理论的基础上,结合全文搜索服务器Solr在查询性能,可配置可扩展方面的优越性,提出了基于Solr的农业信息扩展检索系统。构建了基于哈希机制的农业专业分词词典,设计了与词典相匹配的基于哈希机制的最大正向匹配算法来配合词典进行分词操作,通过把分词模块内嵌到Solr中,完善了Solr的分词体系。通过对同义词存储结构的研究,本文设计了双向链条同义词存储结构,把同义词词典内嵌到的分词词典中,散列化存储。建立索引时调用同义词典,利用Solr中设置位置增量为0的方法把同义词写入到索引相同位置,完成索引的添加工作,扩展了检索范围,解决了由于表达习惯和模糊查询所带来的问题。改进了Solr自带的结果排序算法,提出了与Solr相结合的向量空间模型排序算法,根据文档相似度计算进行结果排序。本文在solr1.4的平台上进行二次开发,对分词模块、扩展模块以及排序模块中的算法进行改进,以弥补平台对农业信息处理的不足,设计实现了农业信息扩展检索实验平台并进行系统测试,测试结果表明对于农业信息的扩展检索检索结果的覆盖率明显提高,很大程度上提高了查全率,同时检索时间增加不明显。实现了预期目的,给农业信息用户查询带来了便利。