基于语义相似度的关联词柔性群簇模型

来源 :上海大学 | 被引量 : 0次 | 上传用户:wangeryan8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统信息检索中,对词汇的识别往往是机械识别、语法识别,而不是语义识别,不考虑概念之间的联系。关键词检索在进行关键词匹配时,传统的精确匹配采用词形匹配而非词义匹配,检索到的信息漏检率很高,而且无法区分同形异义。模糊串匹配,由于是部分匹配,因而会产生大量无关信息,其信息量远远超出人工可以处理的范围。另外传统的关键词匹配对同义/近似词的匹配也无能为力。 本文从信息融合的角度出发,提出了基于语义相似度的关联词柔性群簇模型,设计了一种具有语义联想能力的知识库系统,为概念检索提供了一种关键词“语义匹配”的实现方法。该系统不仅可以根据需要动态的柔性调节匹配范围,而且在同义词/近义词扩展方面实现了一定的智能性。 本文定义了基于距离的语义相似度,通过构建n维关联词簇,在充分考虑领域词汇语义、语用和语境的基础上,描述概念之间的联系,有效的解决了“词汇孤岛”的问题。 本文提出MSS(Most Similar Semantic)最相似语义搜索算法,实现了关键词匹配的柔性调节。设计了应用紧致性原理的智能簇,实现了同义词的自动扩展,具有一定的智能性,避免了由于人们缺乏全局观念而设置某些不恰当的查询条件。 本文设计了基于语义相似度的关联词柔性群簇模型,之后又对其原始模型进行了结构和功能上的扩展,添加了先验知识库和历史经验库,建立了高频词汇索引机制,并提出了优化查询的策略,从而提高了原群簇模型的性能。 本文所研究的问题来源于国家科技攻关项目——信息融合技术在数字海洋中应用的预研。项目中,我们建立了基于该群簇模型的数字海洋共享平台示范系统,利用基于群簇模型的具有语义联想能力的知识库系统进行检索试验,系统测试表明该系统在保证一定查准率的基础上,提高了查全率,有效的解决了数字海洋领域检索中的高漏检率问题。
其他文献
P2P(Peer to Peer)技术是近年被业界广泛重视并迅速发展的一项技术,它是现代网络技术和分布式计算技术相结合的产物。P2P技术应用到Internet,揭开了现代对等互联网的序幕。与基
随着计算机技术的发展和高校信息化工作的不断推进,教育信息化完成了基础设施的建设,高校内拥有越来越多的应用系统。这些应用系统采用了不同的数据库系统或多种数据存储方式,存
自动问答技术是自然语言处理领域中一个热门研究方向,它综合运用了各种自然语言处理技术,目前国内外有很多的科研机构都参与了该技术的研究。基于模式匹配的自动问答技术是一种
多目标跟踪算法结合了计算机视觉、人工智能、模式识别等领域的技术,具有较高的实用价值,是当前机器视觉研究的热点之一。本文在著名目标跟踪技术TLD的基础上,将其扩展到多目标
本论文提出了基于客户机/服务器通信模型的地理信息数据安全控制系统的整体方案,并分别从监控的管理端和监控端详细说明其研究、设计和实现的全部过程。整个方案结合实际需求,
格子Boltzmann方法(Lattice Boltzmann Method,简记LBM)是近年来发展起来的一种模拟流体流动的新的计算方法,并在流体力学等领域有着广泛的应用。但是由于流体流动的复杂性,使流
集成了传感器、嵌入式、网络和无线通信四大技术的无线传感器网络以其在军事领域和民用领域的巨大应用潜力而受到越来越多的重视和研究,其异于传统网络的诸多特点决定了整个网
基因芯片技术是近年来发展非常迅速的一门学科交叉技术,尤其在其反应图像处理方面,更涉及到生命科学,机械工程科学,光学和计算机科学的综合交叉应用。基因芯片图像的处理和数据采
随着电信企业的不断发展,企业间的竞争越来越激烈。完善服务体系、改善服务质量、提高市场竞争力已成为各电信企业不断追求的目标。面对运营过程中逐渐积累的大量零散、彼此孤
选播是IPv6中新定义的一种网络服务模型,它使得用户通过一个选播地址就能访问到该地址所表示的一组服务器中离用户“最近”的一个。选播服务有着巨大的应用潜力,但其实现在技