中文文本语义相似度计算研究及应用

来源 :重庆大学 | 被引量 : 0次 | 上传用户:happyyoung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本相似度计算是中文信息处理相关研究领域中的重要基础,在信息检索、知识挖掘、舆情分析等领域中有着广泛应用。目前的中文文本相似度计算方法大多是从文本的字形层面而不是从文本内容语义理解上计算文本间的相似度,这样得到的相似度值往往与人们的主观理解不一致。本文深入分析和研究了当前基于语义的中文文本相似度计算方法,并针对方法中存在的问题进行改进,使计算得到的相似度能够更为准确地反映中文文本间的语义相似性。本文主要研究贡献点有以下几点:  ①提出一种改进的基于HowNet的中文词汇语义相似度计算方法。针对当前基于HowNet的词汇语义相似度计算方法没有充分考虑知识库描述语言的顺序性特征,对当前计算方法进行改进。首先,充分考虑知识库描述语言对概念进行描述的线性关系特征,提出一种位置相关的权重分配策略。其次,将所提出的策略结合二部图最大权匹配进行概念的相似度计算。最后,将概念相似度计算方法结合现有方法进行中文词汇语义相似度计算。  ②提出一种改进的中文文本语义相似度计算方法。针对当前基于语义的文本相似度计算方法没有综合考虑文本之间在语义内容上的共性和差异性对文本相似度的影响,对当前计算方法进行改进。首先,为了考虑文本特征向量中特征项之间的差异性,在构建关于文本特征向量的二部图时为虚拟顶点设置非零权重值。其次,为二部图中的空特征项顶点与非空特征项顶点设置较小的固定相似度值。  ③在上述中文文本语义相似度计算方法研究基础上,结合谱聚类方法进行基于语义概念的中文文本谱聚类应用研究。首先,在深入分析谱聚类中关于相似度图构建方法的优缺点基础上,结合中文文本语义内容分布特点和上述中文文本语义相似度计算方法,给出了一种更为合理的相似度图构造方法。其次,基于相似度图的邻接矩阵进行中文文本谱聚类。  ④对上述提出的改进方法及基于语义的文本谱聚类应用的效果进行了实验验证。实验表明,改进的词汇语义相似度计算方法较当前其它一些方法能够更为准确的计算词汇间的语义相似度值;改进的中文文本语义相似度计算方法能够更为确切的度量文本间在语义内容上的相似性大小;基于语义的谱聚类方法相比其它聚类方法能够进一步提高中文文本聚类的聚类效果。  本文研究的中文文本语义相似度计算方法主要用于计算文本在语义内容上的相似性大小,可以为中文文本信息知识挖掘相关应用提供良好的方法基础。
其他文献
在节能减排,建设智慧、绿色城市的大背景下,加大燃气,特别是天然气的在能源消费结构中的比重,已成为上海市能源政策的重点。上海的主要燃气分为液化石油气、煤气和天然气。随着城
21世纪是人类深海探测和开发的时代,大深度潜水器作为实现人类开发深海的重要技术手段,其重要性越来越凸显。为了适应深海工作需要,对大深度潜水器的材料性能要求而相应提高
随着互联网的普及和电子商务的蓬勃发展,大量的数据资源充斥在网络之中,人们不得不花费较长的时间选择自己喜欢的资源。个性化推荐系统的出现较好地解决了这一问题,成为当今越来
Web服务作为面向服务体系结构(Service-orientedarchitecture,SOA)的一种实现,通过标准的Web协议提供服务,保证了异构平台上应用程序之间的互操作。将语义Web技术和Web服务融合
计算机视觉是工程学科研究范畴中非常具有挑战性的一个研究领域,而运动目标的检测与跟踪技术可以说是这个领域中的一个关键技术。而且这项技术在智能交通、医疗诊断和军事工
数字视频是人们获取信息的重要媒介之一,然而其庞大的数据量给计算机的存储容量和信道带宽带来了巨大的挑战,严重地阻碍了视频技术的发展。视频编码成为了解决该问题的关键,编码
随着视频通信技术的发展,资源受限领域的视频通信应用越来越受到关注,例如计算能力、内存容量、耗电量受限的无线传感网络中视频监控、无线PC相机、移动视频通话等特殊场合,如何
模型检测是一种自动化程度非常高的有限状态系统验证技术,目前已经在计算机硬件、通信与安全协议、软件可靠性的验证方面获得了较大的成功。传统模型检测技术关注的是系统行为
在人类生活中,根据环境变化不断学习新知识是一个重要的过程。对于智能交互系统来说,这就要求其具有通过交互自我学习的能力。另一方面,在人类感知、学习的过程中,不断把新知
随着异构数据的急剧增加,云计算应运而生。作为云计算的编程模型MapReduce同样也得到了广泛的关注,特别是在学术界。为了解决覆盖及中间数据的存储等诸多问题,诸多学者提出了