论文部分内容阅读
信息检索是电脑中最基础最重要的应用之一。但以往的信息检索基本都是基于关键词匹配的,只要发现某个文档(网页)中含有这个
关键词,就将该文档(网页)作为查询结果返回给用户。因为在基于
关键词匹配的检索过程中参与匹配的是关键词的外在形式,而不是它们所表达的概念,所以很少能完全地反映用户需求,因此,在词检索过程中,人们被迫要求扩展到同义词检索,实际上就是要求应让概念检索来替代词检索。概念检索突破了关键词匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理用户的检索请求。
概念检索与传统的信息检索相比,有着如下优点:1.打破了关键词障碍,把信息检索从目前的关键词层面提高到概念层面;2.概念检索能提供较好的自然语言接口;3.概念检索具有较高的人机交互水平。
本文对概念检索中的若干关键技术进行了研究,在以下几个方面取得了一些成绩和突破。
1.讨论了概念的定义及其与表述形式间的关系,提出了概念网(ConceptNet)的结构组织,以《主题词表》为基础,结合同义词词林、知网、金山词霸的相关词汇,建立了一个蕴涵“属、分、代、参、用”关系的概念网。并且对基于概念网的检索提问扩展和基于概念网的语义联想检索进行了研究,使得信息检索系统具有较高的人机交互水平。
2.对全文索引的存储结构进行改进,将维(field)的概念加入索引项。实现了常用查询概念的索引库,进一步提高了检索系统的性能。还利用索引项中维的概念提出了检索提问中日期项的处理方法。
3.对检索结果定序算法进行了研究,通过对服务器的访问日志进行信息挖掘,提出了基于用户反馈的网页重要度的评定算法,使得检索结果更加符合用户的需求。
基于以上的研究,作者与实验室的其他同学合作实现了一个原型系统。该原型系统的特点是易于移植配置,支持多种检索方式,支持HTML文档,TXT文档等多数据源,具有多元排序功能,并对索引过程和检索缓存做了优化。