论文部分内容阅读
计算机的发展使人们能够搜集和存储海量的信息。由于信息量的不断增大,如何利用计算机自动地精选出所需的资料,是人们关注的焦点。但是目前在文本检索过程中,广泛使用的关键词匹配技术,往往基于这样一种假设:仅在一个文档含有与查询词完全相同的词汇时,它们才相关。因此计算机在关键词匹配检索模式中对关键词没有任何语义分析,只是根据所给出的查询词串的逻辑组合,机械地给出一系列匹配文档,造成垃圾信息过多。要想使计算机更聪明,使信息检索更智能,在自然语言特别是中文的理解和处理方面还需要做大量的基础工作。
概念指的是在文章中词义相关的基本语义单元。一个概念可以对应文中的一个词,也可以对应文中的多个词义相近的词。据研究表明,人们理解一句话或一段文字的是“概念”,而不是表面上的每个“词”。这些“概念”即使用另外一些“词”来表达,人们仍能将其识别出来。因此计算机若要做到智能检索,应该尽量在“概念”而不是“词”的层次上去理解查询词。
基于传统方法的缺点和概念检索的优点,本文设想,可以对查询词进行语义信息分析。要想对词汇进行语义分析,就必须先获得语义信息,这就需要由语料库获得语义信息,对查询词与语料库中的词语计算共现频率、互信息,由互信息得到与查询词最有语义关联的词语集合。
由于受文本集规模的影响,由上述得到的语义关联词语中,有一部分是无效的,并不能正确的搭配查询词。而《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,它是一个网状的有机的知识系统。因此本文提出了基于《知网》的概念相似性词语抽取算法,过滤掉无效的语义关联词语。
实验证明,由基于语料库的语义分析和基于《知网》的概念扩展所得到的查询扩展词语集合,会更好地表达用户的查询意图,也可以在一定程度上消除缺少语义分析的现象。