基于事件的异质信息网络表征学习

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lostcity_online
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分析和挖掘数据中的信息和知识是当今大数据时代最有应用价值的研究问题之一。过去数十年,人们开发了大量的数据分析算法并取得了巨大的成效。这些算法的优越性能取决于它们能够学得很好的数据特征,因此能够挖掘出数据中隐藏的信息和知识。学习数据的特征在数据分析任务中占据着至关重要的位置,在数十年来一直广受机器学习和数据挖掘领域的研究人员的关注。异质信息网络是一种很多现实场景中存在的数据类型,例如社交媒体中的社交网络、个性化推荐系统中的用户-商品兴趣网络、生物学中的大分子蛋白质交互网络等等。异质信息网络分析,例如节点分类、链接预测、节点聚类等等,能够促进这些相关领域和学科的进一步发展。因此,本课题以异质信息网络为研究对象,研究学习异质信息网络中节点的特征,即异质信息网络表征学习。本文通过调研现有的先进网络表征学习算法,得出它们主要存在两个缺陷:1)只考虑了网络中链接数量对节点相关性的影响,而忽略了链接本身的性质,因此会丢失原始网络中的一些语义信息;2)现有的算法不能很好地显式揭示在表征学习过程中网络中的结构和语义信息如何被保留在向量空间中。针对这两个问题,本文先提出了两种基于事件(超边)的节点相关性定义(一阶和二阶事件驱动亲近性),前者用来衡量由于节点间链接的数量所导致的节点相关性,后者用来衡量由于链接本身性质所导致的节点相关性。然后,本文提出一个新的网络表征学习框架Event2vec,其在表征学习过程中通过保留这两种节点相关性信息来保留原始异质信息网络中的结构和语义信息,并且进一步地通过数学推导证明了Event2vec能够显式地将原始网络的这两种节点距离信息保留在嵌入空间中。实验中Event2vec在四个真实数据集(DBLP、Douban、IMDB和Yelp)和三个网络分析任务(网络重构、链接预测和节点分类)比现有的五个先进方法(DeepWalk、node2vec、LINE、metapath2vec和DHNE)在总体上取得了更好的性能,证实了Even2vec能够更有效地保留原始异质信息网络的结构和语义信息。
其他文献
<正> 我要讲一下中国对亚洲意味着什么?以及亚洲对中国意味着什么?现在经过亚洲危机以后,再谈论所谓的亚洲世界,这个话题好象不是很流行了。现在看看中国以外,亚洲所发生的事
目的:观察Q开关Nd:YAG激光1064nm联合532/1064nm混合波长治疗颧部褐青色痣(Naevus Fuscocaendeus Zygomaticus,NFZ)的疗效分析。方法:选择1064nm联合532/1064nm混合波长治疗N
袁世凯幕府规模庞大,在其势力的崛起过程中起了至关重要的作用。在袁世凯的练兵活动中,幕府人员译撰了大量的军事著作,制订了一系列的军事规章制度,创办了一批近代军事学堂,
<正>为进一步了解英法两国教育督导的体制、机制和运行模式,加强和完善北京市教育督导法律制度,做好《北京市教育督导条例》立法工作,2009年9月,北京市教育督导考察小组一行6
"80后"写作场域中沿着传统文学路径成长的青年作家不能不提张怡微,她的多样身份和丰富的经历为她提供了写作容器。作为一个资深异乡人,她在台湾求学期间写下了大量的散文随笔
<正>眼睛是人体的重要器官,也是增加五官美感、人类表达感情的最重要的器官。以往对重睑手术开展的较多,但对内眼角的美学不是很重视,笔者在多年的工作中体会到,美的
目的:总结与分析白癜风的临床特征和治疗效果,探讨白癜风发病机理。方法:采用调查表的形式收集10 000例白癜风患者的临床和治疗资料,从性别构成、发病年龄、病期、发病部位、
基于中国绿洲胡杨(Populus euphratica Oliv.)分布区48个地面气象站1960-2015年逐日平均气温数据,采用线性趋势法、Mann-Kendall检验、Arc GIS反距离加权插值法(IDW)、Morlet
小说《红字》从问世至今,经久不衰,一直深受读者的青睐,正是因为霍桑在创作过程中所运用的丰富的象征手法、细腻的心理描写以及浓厚的浪漫主义色彩,使得小说中的人物惟妙惟肖
老挝在教师教育方面不断作出调整改革,尤其是近年来出台的一系列政策,促进了教师教育的发展。在解决教师的数量与质量问题上,老挝都取得了一定的成效。