论文部分内容阅读
随着互联网的快速普及以及廉价大容量存储设备的不断出现,人类社会已经产生了海量的数字化文档信息。这些数量惊人的数字化文档可谓是人类知识的一个重要的宝库,同时也使得人们越来越依赖信息检索系统来找到所需要的信息。在传统的信息检索模型中,通常使用“词袋”模型来表征文档和查询。然而,人类的自然语言是一个异常复杂的符号系统,词语之间存在包括同义、歧义、语义相关等错综复杂的关系。简单的“词袋”模型忽视了词语之间的丰富的语义关系,远远不能够表征自然语言中所蕴含的复杂的语义信息。本文中的概念是指描述意义的一个基本单元。人类理解自然语言的过程是一个语义概念的联想和关联的过程,这种功能是由人类大脑中几百亿个神经元构成的复杂生理组织所提供的。把和文本主题相关的概念中所蕴含的语义知识融合到文档和查询表征模型将是构建基于语义的信息检索模型的一个途径,这也是本文重点要解决的问题。本文针对基于概念的文本信息检索系统的各个方面进行了系统的研究,包括文本的概念标注的构建、概念的语义表征模型、基于概念的文档和查询模型平滑方法以及基于概念间语义相关性的检索模型。主要研究工作和研究成果概括如下:一、提出了构建文本的概念标注的方法。根据所处理文本对象的不同,提出了几种不同概念标注方法。针对某些专业领域文档集合,可以直接利用其中专家标注的概念。在通常情况下,文档中没有直接可以利用的概念标注。我们提出了一种利用维基百科文档建立通用概念库,并利用基于排序学习的方法来实现文档的维基百科概念自动标注的方法。另外,中文维基百科的质量和数量均难以满足通用概念库的要求,上面提出基于维基百科概念的方法难以应用于中文文本集,因此我们还提出了一种自动概念抽取的方法为中文文本标注概念。二、提出了构建概念的语义表征模型的方法。针对不同类型的概念系统,分别提出了不同的解决方法。针对专业辞典中的概念,提出了一种基于互信息的概念表征方法。针对维基百科概念,提出了一种基于混合模型的表征方法和一种基于互信息的概念表征方法。针对中文文本中自动抽取的概念,提出一种基于概念间语义关联度的方法。三、提出了一种新的基于概念的文档模型平滑方法。通过把概念的语义信息有机的整合到基于“词袋”的文档模型,建立基于语义平滑的文档表征模型。为了验证方法的有效性,在包括专业领域文献和新闻文本的几种标准信息检索测试集上进行了测试。实验表明,相对于传统的语言模型方法,这种方法的检索效果有了显著的提高。四、提出了一种新的基于概念的查询模型平滑方法。在为查询标注相关概念的过程中,分别提出了两种不同的方法:基于伪相关反馈文档中标注的概念来建立查询的概念表征模型的方法,以及基于交互式信息检索的概念选择的方法。在包括专业领域文献和新闻文本的几种标准信息检索测试集上进行的测试表明,相对于传统的语言模型方法,这种方法的检索效果有了显著的提高,进一步验证了这种方法的有效性。五、提出了一种利用概念间语义关系的中文检索模型。利用排序学习方法有机地整合包括概念间语义相关度等各种特征项,建立更加有效的信息检索模型。在包含不同来源新闻报道的国际标准中文文本信息检索测试集NTCIR上的三个子集上进行了测试。实验结果表明,相对于传统的基于BM25模型的方法,这种方法的检索效果有了显著的提高。