基于异质信息网络的文本相似性度量方法

来源 :河北师范大学 | 被引量 : 0次 | 上传用户:Gloria_SHU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似性度量作为一项基本任务,对基于文本的分类、聚类及排序等有着广泛影响。现有的文本相似性度量方法往往忽略了非结构化文本数据中的结构化信息及背景信息,仅考虑文本中的单词粒度或短语粒度不能很好地满足文本相似性度量任务的需要。针对上述问题,本文提出基于异质信息网络的文本相似性度量方法(HINSim),将文本相似性度量转化为加权异质信息网络中的节点相似性度量。扩大文本的特征粒度,利用文本的显式语义信息,结合异质信息网络的结构特性,为文本相似性度量提供新思路。本文的主要工作包括以下几个方面:
  (1)构建加权文本异质信息网络
  结合世界知识库,构建加权文本异质信息网络(Text-WHIN),其中,文本被表示为一种特定类型的节点。首先,对给定文本集进行语义解析并对语义解析结果进行语义过滤,生成实体类型节点。然后,利用文本预处理与特征加权方法生成单词类型节点。最后,对加权文本异质信息网络中的链接关系进行加权,将单词或实体间的PMI值、单词或实体与文本之间的TF-IDF值作为不同类型节点之间的链接权重。将非结构化文本表示为结构化的异质信息网络,将文本特征粒度扩大化,并充分利用了文本的结构化信息及显式语义信息,增强了文本信息的可解释性。
  (2)提出基于元路径的ω-PageRank-Nibble子图划分算法
  采用剪枝策略,对网络模式复杂的加权文本异质信息网络进行子图划分。首先,挖掘文本异质信息网络中关于文本类型节点的元路径。利用基于元路径的 ω-PageRank-Nibble子图划分算法得到给定文本节点集的局部图。最后,根据局部图,计算并存储元路径的交换矩阵。与已有算法相比,该算法降低了空间复杂性及进行后续相似性计算的时间复杂性。
  (3)提出异质信息网络中文本节点相似性度量方法
  根据元路径的交换矩阵,度量加权文本异质信息网络中文本类型节点的相似性。首先,利用基于特定元路径的 OnePathSim 节点相似性度量方法,度量每条特定元路径下的文本节点相似性。根据路径实例,为每条元路径赋予相应权重。最后,结合多条元路径的权重信息,利用基于元路径集的AllPathSim耦合相似性度量方法,综合度量文本类型节点的相似性。与其他节点相似性度量方法相比,AllPathSim方法度量结果的相关系数在不同文本数据集上均有不同程度的提高。
  (4)验证与分析基于异质信息网络的文本相似性度量方法
  利用两个文本数据集20NG和GCAT以及两个英语句子对数据集SICK和MSRP,结合世界知识库Freebase对本文提出的算法进行实验验证及分析。在元路径方面,探究了不同元路径长度对相似性度量结果的影响。实验结果表明,最佳元路径长度为4。在图剪枝方面,利用基于元路径的 ω-PageRank-Nibble算法划分子图与处理整张图相比,时间成本和空间成本节约效果显著。在节点相似性度量方面,AllPathSim耦合相似性度量方法与其他节点相似性度量方法相比,具有较强的优越性。另外,HINSim 方法与其他典型文本相似性度量方法相比,度量结果在不同数据集上均有提升。实验结果表明, HINSim方法能够充分地利用文本语义和结构信息,得到更有效的文本相似性度量结果。
其他文献
大数据时代带来了信息量的指数增长,现实中各行各业积累了巨量的数据。由于数据采集难度和事件发生频率的不同,导致了各个类别的样本数量具有差异,形成了类别不平衡问题。类别不平衡问题造成了传统机器学习分类器的分类精度下降。已有的代价敏感学习方法能够较好地处理类别不平衡问题,然而复杂的类别中蕴含了类与类之间的层次结构关系。数据中类别具有层次关系的样本分布不平衡问题给机器学习分类任务带来了很大的挑战:(1)少
学位
在多标记学习中,由于丰富的标记结果需要由大量的特征属性描述,同时标记间自由组合的标记子集数量随着标记数量的增加而呈指数型增长,在样本有限的情况下导致只有少数标记子集具有样本描述且这些标记子集的平均覆盖样本数量较少,这表现为多标记学习中的两个特点:特征维度高和不均衡学习,因此多数传统的单标记特征选择算法无法很好的直接应用到多标记学习任务中。本文以经典的FisherScore单标记特征选择算法为研究对
学位
在大数据时代,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。目前,大多数特征选择方法主要应用于单标签数据,然而,随着数据维度和标签的不断增加,特征选择已经广泛的应用于多标签数据,并产生了较好的分类效果。传统的一些多标签特征选择算法大多度量特征与整体标签集合的相关性,并选取一组相关性较大的特征子集,然而,多标签数据中的标签间存在着复杂的结构关系,如果仅仅去度量特征与标签间的相
学位
Pawlak提出的粗糙集理论,是一个处理模糊和不精确性问题的数学工具,能对数据进行分析和处理,从中发现隐含的知识;并揭示潜在规律,做出准确决策。但是,Pawlak粗糙集是以等价关系为基础,在很大程度上限制了粗糙集理论的使用范围和处理效果。为了解决这种问题,近年来学者们提出了多种广义粗糙集模型,包含关系粗糙集、模糊粗糙集、变精度粗糙集和覆盖粗糙集等,其中覆盖粗糙集理论已是粗糙集理论的重要组成部分。 
随着互联网、人工智能和云计算等新兴技术的飞速发展,这些领域的数据普遍呈现出高维的特点。同时,这些高维数据又存在特征维数与样本数量不协调、类别分布不均衡的问题。为了能够从这些海量数据中充分挖掘出有价值的信息,特征选择作为一种数据预处理技术,在机器学习领域发挥着越来越重要的作用。面对高维样本数据,目前许多特征选择算法都能够选取出与标签相关度较高、与其它特征冗余度较低的特征。但是,去冗余的过程较为复杂,
学位
蛋白质在生命活动中起着重要作用,了解蛋白质的结构与功能,有助于人类探索生命的运行机制,促进治疗药物的研发。其中,蛋白质与核酸的结合对细胞转录过程具有重要的调控作用,而蛋白质的翻译后修饰广泛存在于细胞翻译过程中。因此,核酸结合蛋白和蛋白质翻译后修饰位点的预测对于了解蛋白质的功能具有重要意义。传统的生物实验方法周期长、成本高,无法满足日益增长的大规模蛋白质数据的预测。基于计算的方法消耗成本更少且简单高
显著性检测是通过模拟人的视觉注意机制,在图像中提取具有显著性的目标区域的过程。作为诸多计算机视觉应用的预处理步骤,显著性检测已广泛应用于多种任务中。本文总结和分析彩色图像显著性检测和高光谱图像显著性检测技术的研究现状,并基于深度学习研究实现了结合对抗学习的彩色图像显著性检测算法和结合自监督学习的高光谱图像显著性检测算法。1.结合双流特征融合及对抗学习的彩色图像显著性检测(SaTSAL)在CGAN主
学位
异质信息网络蕴含丰富的结构信息和语义信息,能够形象、灵活地区分交互系统中对象及关系的差异性。链路预测是图挖掘的基本问题,它根据观察网络中现有的信息估计两个节点之间链路的存在概率,可作为解决数据挖掘中许多任务的基础。现有研究方法多数只关注网络拓扑结构而忽略了节点属性信息,并且用于链路预测的相似性度量方法往往根据元路径考虑节点间的路径相似性。本文根据数据特性提取节点属性信息,结合图核理论,进行异质信息
当代计算机技术与网络迅猛发展,已经深入到各行各业。随着信息时代的到来,人们在享受网络所带来的方便、快捷的同时,也正在被各式各样的网络安全问题威胁和困扰。近几年,网络攻击日渐复杂且具有隐蔽性,致使传统的基于被动防御的网络安全产品和技术难以应对现阶段的网络安全问题,而基于主动防御的网络安全态势感知技术能够更好的解决此类问题。自20世纪末网络安全态势感知技术被提出以来,其被广泛应用于网络安全的各个领域中
学位
脑机接口系统拥有可以绕开外围神经和肌肉组织,在大脑和外部设备间直接建立连接通路的优势,为探索大脑提供了技术支持。基于运动想象任务的脑机接口系统是一种被试者不需要借助外界刺激,仅通过自身想象运动就可以产生脑电信号的自发式脑机接口系统。但是运动想象脑电信号是一种极其弱小的时序信号,具有连续非平稳和低信噪比的特性,且选择信号通道时,部分传统方法采用人工选择的方式,其余方法虽然将全部通道信号输入网络,但信
学位