论文部分内容阅读
文本相似性度量作为一项基本任务,对基于文本的分类、聚类及排序等有着广泛影响。现有的文本相似性度量方法往往忽略了非结构化文本数据中的结构化信息及背景信息,仅考虑文本中的单词粒度或短语粒度不能很好地满足文本相似性度量任务的需要。针对上述问题,本文提出基于异质信息网络的文本相似性度量方法(HINSim),将文本相似性度量转化为加权异质信息网络中的节点相似性度量。扩大文本的特征粒度,利用文本的显式语义信息,结合异质信息网络的结构特性,为文本相似性度量提供新思路。本文的主要工作包括以下几个方面:
(1)构建加权文本异质信息网络
结合世界知识库,构建加权文本异质信息网络(Text-WHIN),其中,文本被表示为一种特定类型的节点。首先,对给定文本集进行语义解析并对语义解析结果进行语义过滤,生成实体类型节点。然后,利用文本预处理与特征加权方法生成单词类型节点。最后,对加权文本异质信息网络中的链接关系进行加权,将单词或实体间的PMI值、单词或实体与文本之间的TF-IDF值作为不同类型节点之间的链接权重。将非结构化文本表示为结构化的异质信息网络,将文本特征粒度扩大化,并充分利用了文本的结构化信息及显式语义信息,增强了文本信息的可解释性。
(2)提出基于元路径的ω-PageRank-Nibble子图划分算法
采用剪枝策略,对网络模式复杂的加权文本异质信息网络进行子图划分。首先,挖掘文本异质信息网络中关于文本类型节点的元路径。利用基于元路径的 ω-PageRank-Nibble子图划分算法得到给定文本节点集的局部图。最后,根据局部图,计算并存储元路径的交换矩阵。与已有算法相比,该算法降低了空间复杂性及进行后续相似性计算的时间复杂性。
(3)提出异质信息网络中文本节点相似性度量方法
根据元路径的交换矩阵,度量加权文本异质信息网络中文本类型节点的相似性。首先,利用基于特定元路径的 OnePathSim 节点相似性度量方法,度量每条特定元路径下的文本节点相似性。根据路径实例,为每条元路径赋予相应权重。最后,结合多条元路径的权重信息,利用基于元路径集的AllPathSim耦合相似性度量方法,综合度量文本类型节点的相似性。与其他节点相似性度量方法相比,AllPathSim方法度量结果的相关系数在不同文本数据集上均有不同程度的提高。
(4)验证与分析基于异质信息网络的文本相似性度量方法
利用两个文本数据集20NG和GCAT以及两个英语句子对数据集SICK和MSRP,结合世界知识库Freebase对本文提出的算法进行实验验证及分析。在元路径方面,探究了不同元路径长度对相似性度量结果的影响。实验结果表明,最佳元路径长度为4。在图剪枝方面,利用基于元路径的 ω-PageRank-Nibble算法划分子图与处理整张图相比,时间成本和空间成本节约效果显著。在节点相似性度量方面,AllPathSim耦合相似性度量方法与其他节点相似性度量方法相比,具有较强的优越性。另外,HINSim 方法与其他典型文本相似性度量方法相比,度量结果在不同数据集上均有提升。实验结果表明, HINSim方法能够充分地利用文本语义和结构信息,得到更有效的文本相似性度量结果。
(1)构建加权文本异质信息网络
结合世界知识库,构建加权文本异质信息网络(Text-WHIN),其中,文本被表示为一种特定类型的节点。首先,对给定文本集进行语义解析并对语义解析结果进行语义过滤,生成实体类型节点。然后,利用文本预处理与特征加权方法生成单词类型节点。最后,对加权文本异质信息网络中的链接关系进行加权,将单词或实体间的PMI值、单词或实体与文本之间的TF-IDF值作为不同类型节点之间的链接权重。将非结构化文本表示为结构化的异质信息网络,将文本特征粒度扩大化,并充分利用了文本的结构化信息及显式语义信息,增强了文本信息的可解释性。
(2)提出基于元路径的ω-PageRank-Nibble子图划分算法
采用剪枝策略,对网络模式复杂的加权文本异质信息网络进行子图划分。首先,挖掘文本异质信息网络中关于文本类型节点的元路径。利用基于元路径的 ω-PageRank-Nibble子图划分算法得到给定文本节点集的局部图。最后,根据局部图,计算并存储元路径的交换矩阵。与已有算法相比,该算法降低了空间复杂性及进行后续相似性计算的时间复杂性。
(3)提出异质信息网络中文本节点相似性度量方法
根据元路径的交换矩阵,度量加权文本异质信息网络中文本类型节点的相似性。首先,利用基于特定元路径的 OnePathSim 节点相似性度量方法,度量每条特定元路径下的文本节点相似性。根据路径实例,为每条元路径赋予相应权重。最后,结合多条元路径的权重信息,利用基于元路径集的AllPathSim耦合相似性度量方法,综合度量文本类型节点的相似性。与其他节点相似性度量方法相比,AllPathSim方法度量结果的相关系数在不同文本数据集上均有不同程度的提高。
(4)验证与分析基于异质信息网络的文本相似性度量方法
利用两个文本数据集20NG和GCAT以及两个英语句子对数据集SICK和MSRP,结合世界知识库Freebase对本文提出的算法进行实验验证及分析。在元路径方面,探究了不同元路径长度对相似性度量结果的影响。实验结果表明,最佳元路径长度为4。在图剪枝方面,利用基于元路径的 ω-PageRank-Nibble算法划分子图与处理整张图相比,时间成本和空间成本节约效果显著。在节点相似性度量方面,AllPathSim耦合相似性度量方法与其他节点相似性度量方法相比,具有较强的优越性。另外,HINSim 方法与其他典型文本相似性度量方法相比,度量结果在不同数据集上均有提升。实验结果表明, HINSim方法能够充分地利用文本语义和结构信息,得到更有效的文本相似性度量结果。