论文部分内容阅读
随着以社交网络为典型代表的异构信息网络的迅猛发展,异构信息网络分析已经成为数据挖掘中一个重要且热门的研究方向,被广泛的应用于社交网络、Web数据管理、蛋白质结构预测等领域。异构信息网络分析的目的在于从多类型对象多类型链接组成的异构网络中提取出有用的知识,主要包括对象分类、信息检索、链接预测和对象排名等。对象分类和相似性搜索作为异构网络挖掘中的重要内容,受到研究人员的广泛关注,并提出大量相关算法,然而这些算法的用户满意程度却还有待提高。如:现有的相似性搜索算法不考虑对象在网络中的动态变化;现有的异构网络分类算法往往需要进行大量的迭代计算,并不适用于对象动态增加的异构网络数据管理,本文围绕这些问题展开深入的研究。本文对异构信息网络中现有的相似性搜索算法和分类算法进行详细分析,重点研究了元路径在异构网络分析中的作用,针对异构网络中对象链接随时间不断发生变化,提出引入时间因素基于元路径的动态相似性搜索算法;针对异构网络中对象的数目随时间不断增多,提出能够直接预测新来样本标签的归纳分类算法。本文的主要研究成果如下:(1)针对异构信息网络数据挖掘中的相似性搜索、对象分类问题,对近年来的一些主要研究工作进行总结和分析,并指出这些方法的问题和应用范围,为异构网络挖掘中相似性搜索和对象分类的进一步研究明确了方向。(2)针对现有相似性搜索算法只关注对象之间的链接数,而不考虑这些链接随时间不断发生变化的这个现象,提出一种基于元路径的动态相似性搜索算法PDSim。该算法首先利用对象之间的路径数,得到对象之间的元路径实例数比值;然后,利用链接的建立时间,得到对象之间的时间差异度;最后,结合元路径实例数比值和时间差异度,得到对象之间的相似性。在多个相似性搜索实例中,PDSim能够捕获到对象随时间变化而产生的兴趣变化;应用于聚类时,相对于现有算法,其聚类得到的标准互信息可以提高0.17%-9.24%。(3)针对现有异构网络分类算法大多属于直推式分类,无法为新增加的样本直接预测标签,提出一种基于元路径的归纳分类算法Hic。该算法首先利用标记数据之间的路径,得到归纳分类模型;然后,利用目标对象的相关链接,预测目标对象的标签。在DBLP数据集中进行实验测试时,Hic算法相对于现有的分类算法能够获得更高的分类准确度、标准互信息和更小的分类准确度的方差。