基于语义相似度的关联词柔性群簇模型

来源 :上海大学 | 被引量 : 0次 | 上传用户：wangeryan8

【摘要】

：

在传统信息检索中，对词汇的识别往往是机械识别、语法识别，而不是语义识别，不考虑概念之间的联系。关键词检索在进行关键词匹配时，传统的精确匹配采用词形匹配而非词义匹配，检索到

【作者】

：

李严

【机构】

：

上海大学

【出处】

：

上海大学

【发表日期】

：

2007年期

【关键词】

：

信息融合语义检索语义相似度知识库群簇模型信息检索语义识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在传统信息检索中，对词汇的识别往往是机械识别、语法识别，而不是语义识别，不考虑概念之间的联系。关键词检索在进行关键词匹配时，传统的精确匹配采用词形匹配而非词义匹配，检索到的信息漏检率很高，而且无法区分同形异义。模糊串匹配，由于是部分匹配，因而会产生大量无关信息，其信息量远远超出人工可以处理的范围。另外传统的关键词匹配对同义/近似词的匹配也无能为力。本文从信息融合的角度出发，提出了基于语义相似度的关联词柔性群簇模型，设计了一种具有语义联想能力的知识库系统，为概念检索提供了一种关键词“语义匹配”的实现方法。该系统不仅可以根据需要动态的柔性调节匹配范围，而且在同义词/近义词扩展方面实现了一定的智能性。本文定义了基于距离的语义相似度，通过构建n维关联词簇，在充分考虑领域词汇语义、语用和语境的基础上，描述概念之间的联系，有效的解决了“词汇孤岛”的问题。本文提出MSS(Most Similar Semantic)最相似语义搜索算法，实现了关键词匹配的柔性调节。设计了应用紧致性原理的智能簇，实现了同义词的自动扩展，具有一定的智能性，避免了由于人们缺乏全局观念而设置某些不恰当的查询条件。本文设计了基于语义相似度的关联词柔性群簇模型，之后又对其原始模型进行了结构和功能上的扩展，添加了先验知识库和历史经验库，建立了高频词汇索引机制，并提出了优化查询的策略，从而提高了原群簇模型的性能。本文所研究的问题来源于国家科技攻关项目——信息融合技术在数字海洋中应用的预研。项目中，我们建立了基于该群簇模型的数字海洋共享平台示范系统，利用基于群簇模型的具有语义联想能力的知识库系统进行检索试验，系统测试表明该系统在保证一定查准率的基础上，提高了查全率，有效的解决了数字海洋领域检索中的高漏检率问题。

其他文献

结构化P2P网络的路由技术研究

P2P(Peer to Peer)技术是近年被业界广泛重视并迅速发展的一项技术，它是现代网络技术和分布式计算技术相结合的产物。P2P技术应用到Internet，揭开了现代对等互联网的序幕。与基

学位

结构化对等网物理地址逻辑地址路由技术BSNCCC算法负载平衡

基于ETL的数据集成系统的设计与实现

随着计算机技术的发展和高校信息化工作的不断推进，教育信息化完成了基础设施的建设，高校内拥有越来越多的应用系统。这些应用系统采用了不同的数据库系统或多种数据存储方式，存

学位

数据集成实时抽取元数据适配器高校信息化数字化校园

基于模式匹配的中文问答技术研究

自动问答技术是自然语言处理领域中一个热门研究方向，它综合运用了各种自然语言处理技术，目前国内外有很多的科研机构都参与了该技术的研究。基于模式匹配的自动问答技术是一种

学位

中文自动问答模式匹配模式学习后缀树

视频中多目标识别-跟踪系统设计及其并行化

多目标跟踪算法结合了计算机视觉、人工智能、模式识别等领域的技术，具有较高的实用价值，是当前机器视觉研究的热点之一。本文在著名目标跟踪技术TLD的基础上，将其扩展到多目标

学位

并行计算多目标识别跟踪系统OpenMP技术

地理信息数据安全控制系统

本论文提出了基于客户机/服务器通信模型的地理信息数据安全控制系统的整体方案，并分别从监控的管理端和监控端详细说明其研究、设计和实现的全部过程。整个方案结合实际需求，

学位

地理信息数据安全控制系统监控端管理端客户机服务器

LBGK模型的分布式并行算法研究及其实现

格子Boltzmann方法(Lattice Boltzmann Method，简记LBM)是近年来发展起来的一种模拟流体流动的新的计算方法，并在流体力学等领域有着广泛的应用。但是由于流体流动的复杂性，使流

学位

格子模型方法消息传递接口并行计算可扩展性

无线传感器网络泛洪与定向扩散路由的节能性改进

集成了传感器、嵌入式、网络和无线通信四大技术的无线传感器网络以其在军事领域和民用领域的巨大应用潜力而受到越来越多的重视和研究，其异于传统网络的诸多特点决定了整个网

学位

无线传感器网络节点跳数定向扩散泛洪协议节能性路由协议

ASM（Active Shaped Model）算法在基因芯片图像处理中的研究与系统实现

基因芯片技术是近年来发展非常迅速的一门学科交叉技术，尤其在其反应图像处理方面，更涉及到生命科学，机械工程科学，光学和计算机科学的综合交叉应用。基因芯片图像的处理和数据采

学位

基因芯片技术ASM算法图像处理统一建模语言

基于Web的OLAP技术在电信数据分析中的研究与应用

随着电信企业的不断发展，企业间的竞争越来越激烈。完善服务体系、改善服务质量、提高市场竞争力已成为各电信企业不断追求的目标。面对运营过程中逐渐积累的大量零散、彼此孤

学位

联机分析处理Web数据数据仓库四层结构电信企业数据分析电信数据

基于GA的选播路由算法及负载平衡的选播协议研究

选播是IPv6中新定义的一种网络服务模型,它使得用户通过一个选播地址就能访问到该地址所表示的一组服务器中离用户“最近”的一个。选播服务有着巨大的应用潜力,但其实现在技

学位

选播路由算法路由协议遗传算法负载平衡服务质量

基于语义相似度的关联词柔性群簇模型

其他学术论文