结合节点标签和文本信息的网络表示学习算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:slyde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从社交网络到万维网,网络提供了一种直观、简洁的方式来组织、保存各种各样真实世界的信息。由于网络包含成千上万的节点和边,因此在整个网络上执行复杂的推理过程是很困难的。网络表示学习又称为网络嵌入、图嵌入,旨在学习网络中节点的低维稠密向量表示,将其用作各种任务的特征,如分类、聚类、链接预测和可视化。随着信息、科技的发展,信息社会中很多网络节点拥有丰富的标签、文本、视频音频等外部信息,构成复杂的信息网络。传统网络表示学习主要依赖于网络拓扑结构信息,而忽略了这些优质的外部信息。因此,如何能够在网络表示学习过程中,考虑这些外部信息,提高网络表示的质量和增强表示向量在网络分析任务上的效果,是一个具有前景的研究课题。本文充分利用节点的标签信息与文本信息,将它们与网络拓扑结构信息结合起来,进一步增强网络节点表示的强度和效果。本文工作重点和创新点如下:(1)本文提出CNLI(Combining Nodes’Label Information)算法,结合节点标签信息进行网络表示。首先基于网络的拓扑结构形成节点的初始向量表示,然后在相同类别节点间进行随机游走形成隐式序列,接下来引入卷积神经网络,利用该序列以及标签信息优化节点向量,使节点的向量表示具有标签特性,使同类节点的向量表示相近,不同类别节点向量表示差距拉大,增强表示向量的区分能力。在实验中表明本文提出的算法在节点分类micro-F1值与运行时间上有一定的提升。(2)本文自定义了专门的目标函数,以解决目前网络表示学习算法大多缺乏针对性目标函数的问题,通过刻画节点局部与全局概率分布,专门来获取基于拓扑结构的网络信息。(3)本文提出CNTI-Edge(Combining Nodes’Text Information-Edge)算法,结合节点文本信息进行网络表示。首先将文本映射成文本向量得到每个节点在网络中基于文本最相近的k个节点,将这些基于文本生成的节点作为补充的拓扑结构加入网络中,缓解网络稀疏性问题,用(2)提出的目标函数,分别得到基于真实存在的拓扑结构下的节点向量表示以及基于文本补充拓扑结构的节点向量表示,将两部分向量拼接,得到节点最终的向量表示。在实验中表明本文提出的算法在节点分类micro-F1值上,链接预测AUC上有一定的提升。(4)本文提出CNTI-MF(Combining Nodes’Text Information-Matrix Factorization)算法,是另一种结合文本信息方法。首先将节点的文本信息通过神经网络模型,与相互注意机制,组合成节点基于文本的特征矩阵,然后构建网络整体矩阵,利用矩阵分解方法,将整个网络分解成多个小规模矩阵相乘,把文本特征矩阵加入其中,通过迭代更新,得到节点的文本特征向量。最后与节点基于拓扑结构的向量拼接,得到节点最终的向量表示。在实验中表明本文提出的算法在节点分类micro-F1值上,链接预测AUC上有一定的提升。
其他文献
“新常态”下发展要从主要依靠资源、低成本劳动力等要素投入转向创新驱动。企业层面的创新已成为中国经济能否成功实现转型升级和保持可持续发展的重中之重,同时创新也是企业获取竞争优势的关键因素。企业创新主要依靠研究和开发活动,企业研发投入水平是衡量其创新能力的最重要因素之一。企业开展研发活动最重要的限制因素之一就是资金,宏观经济政策尤其是紧缩的货币政策会通过货币渠道和信贷渠道影响企业融资成本和融资规模,进
清代安定县马氏家族是甘肃定西地区科举世家的典型代表,同时也是清代当地颇具盛名的著姓望族。据家谱载,马氏祖籍河北邯郸,后先祖定居于陕西扶风,明末清初国家移民实边政策推行,这一支系先祖便迁移至巩昌府安定县,也就是今甘肃省定西市安定区。自明末迁入安定县开始发展至清朝末年,马氏经过家族前几代的用心经营,逐渐在当地站稳脚跟,稳定发展。并通过积极参与科举考试、与地方望族联姻、与世家文人交友等方式,使本家族愈加
电磁波干扰不但影响电子器件的正常运行,而且危害人体健康。采用高性能电磁屏蔽材料隔离辐射是保护电子器件和设备免受电磁干扰的有效方式。电导率是决定材料屏蔽效能的重要因素,因此高电导率的金属材料一直以来都是人们制备高性能屏蔽材料的首选。近年来,随着5G通讯技术和芯片制造技术的迅猛发展,电子元器件向小型化、轻薄化、高集成度和多功能化方向演变,这也对电磁屏蔽材料提出了更高的要求。传统的金属材料多为铜,铁,镍
超声波无损检测(Ultrasonic NDT)是保证焊接件焊接质量的重要途径之一,其中最常见的管道和相贯线NDT,一般需要专业技术员手动进行。恶劣的工作环境,高强度的工作,将导致手动N
统计知识是了解“不确定性”数学现象、基于大数据进行分析与推断的重要理论基础。在中学数学课程中,数学教育专业人士越来越重视统计教学。目前,关于统计课程内容与教科书国际比较的研究已有很多,但仍存在“研究框架丰富、定量分析不足”等问题。研究在梳理相关文献的基础上,确立初中数学教科书统计部分比较框架,分别从统计内容、习题、活动和整体难度等维度,对中国的PEP教科书与新加坡的NSM教科书进行比较,主要研究问
伴随信息新技术的推陈出新,高科技给人们生活带来的便利之处随处可见。但随之而来的信息安全问题也得到了大家的广泛关注。传统的身份加密方式已经无法满足人们对高安全性的需求,所以社会迫切需要得到一种卓有成效的身份鉴别方法。根据人体本身独有的生物特征以及行为习惯来进行身份认证的新技术叫做生物特征识别,这种方式具有很高的安全特性。而与其他生物特征识别技术相比而言,虹膜识别以其独有的正确率高、容易采集和稳定性好
地理标志产品是基于独特的区位优势而形成的一种准公共产品,承载着长期历史积淀的品质声誉,对内具有有限的非排他性和非竞争性,对外具有极高的品牌价值和产业竞争力。地理标志品牌建设对解决我国三农问题具有重要的经济意义和社会意义。然而,随着我国地理标志品牌建设的不断深入,由其准公共产品属性引发的“搭便车”问题也日益凸显,市场主体机会主义行为倾向明显,地理标志品牌建设中私人供给严重不足,阻碍了地理标志产业的有
2009年以来,信托业在一片质疑声中经历了多年的飞速发展,并于2016年正式最终发展成为我国金融行业的第二大金融部门。但是,随着资管新规政策的出台,各类资产管理机构之间的竞争壁垒逐渐被拆除,资产管理行业面临新的竞争格局。同时,由于资源、环境、劳动力人口等生产要素的约束和限制,以及国内国际经济增长的客观趋势,中国经济呈现出了不同以往发展特点。习近平总书记针对这一局面,提出了中国经济发展进入了新常态的
在高中语文课堂教学中,阅读教学一直占据着十分重要的地位,新课程与新教材改革又给高中语文阅读教学带来了巨大的挑战。语文教师要胜任阅读教学课堂,就必须认识到学科教学知识对课堂教学的重要影响。因此,本研究将结合课堂实录、问卷与访谈,分析教师的学科教学知识对高中语文阅读课堂教学产生的相关影响,以提高阅读课堂教学质量,优化阅读教学效果。全文除绪论与结语外,共分为四个部分。第一部分:个案教师学科教学知识特征。
学位
病毒感染引起的疾病(如:乙型肝炎、丙型肝炎、艾滋病等)是全球性健康问题,目前临床上已有的药物仅能够抑制患者体内病毒复制,但是并不能够治愈相应的疾病;同时长期用药后,病