结合社区结构信息的异构社交网络表示学习研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zzu123456789zzuliuli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博,Facebook,微信等大型社交网络迅速普及,形成了海量的社交网络数据。海量的社交网络数据使得经典的网络表示方法在进行网络的数据挖掘时遇到了瓶颈,经典的网络表示方法在表示大型网络时存在占用空间过大,数据形式不利于后续的数据挖掘算法等问题。作为解决这些问题的一种途径,网络表示学习近年来受到了越来越多的研究者的关注。网络表示学习的目的是将网络中的节点映射到一个低维的向量空间中,把每一个网络节点表示为一个特征向量,使得原始网络的结构信息能够蕴含在向量中。网络表示学习通过把网络节点表示成一个低维向量,使得网络数据更容易存储,同时向量形式的网络数据也更容易作为机器学习算法的输入。然而网络表示学习算法的效果会随着社交网络的逐渐稀疏很快地降低。因为如果社交网络很稀疏,那么网络中的很多用户之间没有直接或者间接的联系,网络表示学习算法就无法确定用户向量在向量空间中相互之间的距离。为了解决这一问题,本文利用了社交网络中用户节点的属性信息。通过将用户的各种属性提取出来,形成新的属性节点,将其加入到社交网络中,形成新的异构社交网络。异构社交网络中用户之间通过不同类型的属性节点和链接关系互相链接,蕴含了丰富的语义关系,从而有效地缓解了社交网络的稀疏性问题。但是目前的网络表示学习算法主要是关注于同构网络的表示学习,即网络中的节点和链接关系都是同一个类型。而异构社交网络中包含了不同类型的节点和链接,用户节点之间的不同的链接类型蕴含着不同的语义关系,用户在不同语义关系下可能具有不同的距离,所以针对同构网络而设计的网络表示学习算法不一定能够很好地学习到社交网络中用户的向量表示。为了解决这一问题,本文提出了一种基于元结构的用户相似度计算方法,利用异构社交网络中不同类型的元结构来更加准确地描述用户之间在不同情景下的语义关系。然后使用栈式降噪自编码器融合多种关系信息,从而学习异构社交网络中用户的低维表示。此外,社交网络中往往存在着比较明显的社区结构,如果在异构社交网络表示学习过程中能够学习到社交网络的社区结构,那么学习到的网络节点向量则能够更加准确地反映出原始网络的结构特点。所得到的网络节点向量在后续的网络数据挖掘任务中也能发挥更好的效果,如用户节点分类等。基于此想法,本文通过把社交网络中的社区类比成自然语言中的主题,利用自然语言处理中的主题模型方法,学习到每个用户节点的社区信息。并将其加入到网络表示学习的过程中去,最终学习到社交网络中用户的最终表示。最后我们通过在三个真实数据集上的实验,验证了本文算法的效果。本文主要工作和创新点主要如下:(1)为了解决社交网络过于稀疏影响网络表示学习效果的问题,本文通过引入更加丰富的信息来缓解社交网络的稀疏性问题。通过挖掘用户节点的属性信息,加入到社交网络中,构造了新的异构社交网络。(2)针对同构网络表示学习算法不适用异构社交网络,无法准确地学习到网络中丰富的语义信息的问题,本文利用异构社交网络中的元结构,提出一种计算异构社交网络中用户相似度的方法。通过该方法来挖掘异构社交网络中的用户之间不同类型的语义信息。然后利用深度神经网络来融合多种语义信息,从而学习到网络的节点表示。(3)为了在网络表示学习中学习异构社交网络中宏观的社区结构信息,得到更加精确的用户表示,本文将社交网络中的社区类比成自然语言中的主题,然后借鉴自然语言处理方法中的LDA主题模型算法来学习用户的社区信息,并将其应用到网络表示学习中去。
其他文献
随着GIS理论体系和技术体系的不断成熟,中国地质领域的信息革命正在逐步进行。由于信息的来源、格式、种类等越来越多样化,需要对海量复杂而又相互关联的信息内容进行深入研
在国内外压力下,1943年9月,国民党五届十一中全会通过议案,决定在抗日战争胜利后一年内召集国民大会,制定和颁布宪法。第二次宪政运动由此展开。各地的民主人士积极创办刊物,
水不仅是万物生存和发展的基本条件,也是国家的经济发展重要战略资源。虽然水占地球表面积的75%,但是世界上仍然有很多国家和地区的淡水资源非常匮乏,有效解决这个重大难题的两个主要途径是海水淡化和污水净化,实现这两种途径的技术方法有很多种,其中利用过滤膜技术是最经济、高效的。碳纳米管水通道具有天然的中空结构,近年来大量的理论和实验研究表明水在碳纳米管通道中的输运速度能达到宏观无滑移情况下的1000倍,碳
柴油机颗粒捕集器(DPF)是当前处理排气污染物最有效的手段之一,相对而言,DPF载体的催化剂涂覆技术已经非常完备,目前该技术最大的瓶颈是再生控制技术。DPF的再生时机判断过早,再生频率太高,会加快载体的老化,降低发动机燃油经济性;再生时机判断过晚,再生时载体内积累的碳载量过多,又会造成再生温度过高,载体易发生烧损现象。此外,确定了再生时机后,还需要对再生过程中的温度进行相应的管理,既要防止再生温度
喹诺酮类抗生素因其具有抗菌谱广的特点而被广泛应用于人类和牲畜。与此同时,抗生素通过各种不同的途径进入自然环境中,由于难以自然降解,抗生素残留会对生态系统与人类的身体健康造成潜在的威胁。因此建立高效的喹诺酮类抗生素的检测与处理工艺具有重要意义。近年来,应用Bi_2WO_6光催化剂对有机废水进行光催化氧化降解多有报道,展现出该种材料优良的光催化活性。本文采用固相萃取-超高效液相色谱串联质谱联用技术(S
十九世纪下半叶,西班牙民族乐派逐步兴起,在钢琴领域出现了一位伟大的作曲家阿尔贝尼斯。阿尔贝尼斯的晚期创作了一部经典钢琴组曲《伊比利亚》,其中的一首钢琴作品《阿巴欣》是一首带有强烈的西班牙民族风格的钢琴作品。本文通过两个部分对该作品进行了分析:第一部分简要介绍了曲目的作者以及作品的创作背景,分析了作品《阿巴欣》的曲式结构、调式调性,以及西班牙民间音乐舞蹈、器乐元素在作品中的运用;第二部分通过对作品《
研究目的及背景:本研究的出发点来自于对中国肝移植注册(China Liver Transplant Registry,CLTR)2011中国肝移植年度科学报告中关于肝移植术后急性排斥反应(Acute rejection,
铅锌矿是富含金属元素铅和锌的矿产,铅、锌元素主要用于机械、冶金、电气、军工、化学、医药及轻工业等领域。贵州水城县是黔西北铅锌矿主要产地,铅锌矿的开采及冶炼产生的重金属Pb、Zn以及伴生重金属Ni、Cd、Cr、As、Hg、Cu等会富集到周边土壤中,进而被蔬菜吸收。蔬菜是矿区周边居民直接且常年食用的食物,是矿区重金属进入人体的重要途径,直接关乎居民的身体健康。本研究选取水城县境内典型铅锌矿区(杉树林矿
重叠社区结构普遍存在于社交网络、信息网络、技术网络和生物网络中,并蕴涵着有意义的信息,随着社区网络结构的日益复杂,网络中潜在的价值越来越有意义,进而有更多的学者投入到重叠社区发现的研究中,促进了重叠社区发现算法和重叠社区的评估方法更快速的发展。基于中心节点选择的重叠社区发现算法(CNS)是一种传统的重叠社区发现算法,CNS算法主要的内容是中心节点选择过程和聚类过程,在中心节点选择过程中主要根据节点
纠缠是量子物理学的一个违反直觉的特征,是量子技术的核心。高维量子态具有独特的量子特性,并在某些量子信息和量子计算任务中较传统技术更有优势,例如量子通信传输信息容量更大,量子计算和量子模拟的并行能力更强等。光子作为信息的载体,具有自由度多、易集成,相干性好等优势,此外,光子在形成多体和多维的纠缠态上具有先天的优势。传统光路设备尺寸庞大,往往系统的相位稳定性个很大的挑战。而集成技术不仅能够缩小设备尺寸