基于元路径的异构信息网络挖掘方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:lili00789563241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以社交网络为典型代表的异构信息网络的迅猛发展,异构信息网络分析已经成为数据挖掘中一个重要且热门的研究方向,被广泛的应用于社交网络、Web数据管理、蛋白质结构预测等领域。异构信息网络分析的目的在于从多类型对象多类型链接组成的异构网络中提取出有用的知识,主要包括对象分类、信息检索、链接预测和对象排名等。对象分类和相似性搜索作为异构网络挖掘中的重要内容,受到研究人员的广泛关注,并提出大量相关算法,然而这些算法的用户满意程度却还有待提高。如:现有的相似性搜索算法不考虑对象在网络中的动态变化;现有的异构网络分类算法往往需要进行大量的迭代计算,并不适用于对象动态增加的异构网络数据管理,本文围绕这些问题展开深入的研究。本文对异构信息网络中现有的相似性搜索算法和分类算法进行详细分析,重点研究了元路径在异构网络分析中的作用,针对异构网络中对象链接随时间不断发生变化,提出引入时间因素基于元路径的动态相似性搜索算法;针对异构网络中对象的数目随时间不断增多,提出能够直接预测新来样本标签的归纳分类算法。本文的主要研究成果如下:(1)针对异构信息网络数据挖掘中的相似性搜索、对象分类问题,对近年来的一些主要研究工作进行总结和分析,并指出这些方法的问题和应用范围,为异构网络挖掘中相似性搜索和对象分类的进一步研究明确了方向。(2)针对现有相似性搜索算法只关注对象之间的链接数,而不考虑这些链接随时间不断发生变化的这个现象,提出一种基于元路径的动态相似性搜索算法PDSim。该算法首先利用对象之间的路径数,得到对象之间的元路径实例数比值;然后,利用链接的建立时间,得到对象之间的时间差异度;最后,结合元路径实例数比值和时间差异度,得到对象之间的相似性。在多个相似性搜索实例中,PDSim能够捕获到对象随时间变化而产生的兴趣变化;应用于聚类时,相对于现有算法,其聚类得到的标准互信息可以提高0.17%-9.24%。(3)针对现有异构网络分类算法大多属于直推式分类,无法为新增加的样本直接预测标签,提出一种基于元路径的归纳分类算法Hic。该算法首先利用标记数据之间的路径,得到归纳分类模型;然后,利用目标对象的相关链接,预测目标对象的标签。在DBLP数据集中进行实验测试时,Hic算法相对于现有的分类算法能够获得更高的分类准确度、标准互信息和更小的分类准确度的方差。
其他文献
在企业的信息交换中,文档是业务与它们的客户之间交互的主要来源,被用于创造收入、管理事务并传递知识,同时也是客户、合作者、供应商及其后端系统和业务流程之间的公共接口
在我国的出口行业中,技术性贸易壁垒(Technical barriers to trade,简称TBT)造成的贸易摩擦日益增多,给我国出口贸易造成巨大损失。究其原因主要是我国缺乏强有力的TBT监测预
本文研究在CG树模型下的负载调度算法和资源管理模型,以实现分布式集群系统的负载均衡和资源合理利用。通过研究现有的负载调度算法,本文提出了一种基于CG树模型的请求式动态
入侵检测作为一种积极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到危害之前拦截和响应入侵。现有入侵检测系统不但误警率高,且实时性
基因组测序工作快速发展,基因组结构注释成为破译基因组秘密的首要问题。纯粹基于实验方法的基因结构注释代价较高且难以适应基因组数据的迅速增长,因此,需要建立基因组结构
随着互联网技术的发展和接入速度的提高,用户对网络的期望和要求不再满足于单一的静态媒体,流媒体应用成为了用户新的需求。但流媒体对带宽资源要求高且服务时间长,在传统的C
随着WWW技术的日益成熟和互联网应用的逐渐普及,互联网已经发展成为了一个巨大的分布式信息空间。从Web中获取信息已成为个人获取知识的主要方法和重要手段,也成为当前企业获
信息时代人们出于对安全的需求,越来越重视用人的生理特征进行身份认证的生物识别技术。在众多的生物识别技术中,虹膜识别技术有着无可比拟的优越性。虹膜作为重要的身份鉴别
在安全关键系统中,对嵌入式系统持续提供正确服务的要求越来越高。传统的保障手段如安全性、可靠性等已不能满足要求。针对越来越高的需求,将可生存性引入嵌入式系统的设计中
随着视频压缩技术的深入研究,九十年代初出现了一系列视频压缩标准,其中尤以MPEG-2影响圈较大;同时随着集成电路制造技术的进步,许多芯片厂商相继推出了相应专用芯片,这些都