论文部分内容阅读
在传统信息检索中,对词汇的识别往往是机械识别、语法识别,而不是语义识别,不考虑概念之间的联系。关键词检索在进行关键词匹配时,传统的精确匹配采用词形匹配而非词义匹配,检索到的信息漏检率很高,而且无法区分同形异义。模糊串匹配,由于是部分匹配,因而会产生大量无关信息,其信息量远远超出人工可以处理的范围。另外传统的关键词匹配对同义/近似词的匹配也无能为力。
本文从信息融合的角度出发,提出了基于语义相似度的关联词柔性群簇模型,设计了一种具有语义联想能力的知识库系统,为概念检索提供了一种关键词“语义匹配”的实现方法。该系统不仅可以根据需要动态的柔性调节匹配范围,而且在同义词/近义词扩展方面实现了一定的智能性。
本文定义了基于距离的语义相似度,通过构建n维关联词簇,在充分考虑领域词汇语义、语用和语境的基础上,描述概念之间的联系,有效的解决了“词汇孤岛”的问题。
本文提出MSS(Most Similar Semantic)最相似语义搜索算法,实现了关键词匹配的柔性调节。设计了应用紧致性原理的智能簇,实现了同义词的自动扩展,具有一定的智能性,避免了由于人们缺乏全局观念而设置某些不恰当的查询条件。
本文设计了基于语义相似度的关联词柔性群簇模型,之后又对其原始模型进行了结构和功能上的扩展,添加了先验知识库和历史经验库,建立了高频词汇索引机制,并提出了优化查询的策略,从而提高了原群簇模型的性能。
本文所研究的问题来源于国家科技攻关项目——信息融合技术在数字海洋中应用的预研。项目中,我们建立了基于该群簇模型的数字海洋共享平台示范系统,利用基于群簇模型的具有语义联想能力的知识库系统进行检索试验,系统测试表明该系统在保证一定查准率的基础上,提高了查全率,有效的解决了数字海洋领域检索中的高漏检率问题。