论文部分内容阅读
中文文本检索是信息检索的重要组成部分,目前几乎所有搜索引擎都是采用关键词的检索方法,其核心是关键字符的机械式匹配,存在的问题之一就是召回率低,导致检索系统的整体性能低。概念检索通过基于语义的自然语言处理来析取各种概念信息,并由此形成一个知识库,然后,根据对用户提问的理解来检索知识库中相关的信息以提供直接的回答,有效地弥补了关键词检索存在的缺陷。本文就中文文本检索中文本的重构、查询的扩展进行了研究。主要研究工作如下:1.提出了基于文本关键词同义合并的词条权重计算方法,构建了基于概念语义同义扩展的文本检索模型。TF-IDF是现有典型的文本词条权重计算方法,其存在的主要问题有:1)没有考虑语义同义关系;2)文本词条没有固定权重;3)支撑主题的核心词易被赋予较低权重。基于文本关键词同义合并的词条权重计算方法,有效解决了上述三个问题,并借助该方法,构建了基于概念语义同义扩展的检索模型。实验表明,该模型较关键词检索模型在精确率小幅度下滑的同时,召回率得到较大提高,综合性能得到了改善。2.构建了基于概念语义同义扩展检索模型与关键词检索模型结合的检索模型。精确率和召回率是检索系统性能评价的两个重要指标,针对基于概念语义同义扩展的文本检索模型较关键词检索模型精确率低的现象,采取了相应的补救措施:将其与关键词模型结合检索,旨在通过调整两者不同的结合参数,找到一个更优的模型。理论分析与实验表明,该结合模型中的比例参数调整适当,能平衡检索系统的准确率与召回率,获得更好的检索效果。3.提出了检索概念权重计算的两种方法和一种基于检索概念扩展的文本概念权重计算方法,构建了基于概念树扩展的两个检索模型。分析了概念在语义层次上的扩展,将概念树中的父子概念关系用词语的相似度进行量化,检索概念采用两种权重计算方法;并将这两种方法用于两个对应的检索模型,基于检索概念的文本概念权重计算方法将用于其中的一个模型。实验显示,这两个检索模型的精确率与关键词检索模型保持基本一致,召回率却得到较大提高。