基于矩阵分解与随机游走的文本信息网络表示学习研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:cuicuiCUICUI123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代,海量数据产生于生活的方方面面。以网络表达个体与个体间联系,是数据呈现的一种重要方式,诸如社交网络、引用网络和通信网络等。对这些网络进行分析有助于深入了解社会结构、信息传播和沟通方式。已经有许多方法被应用于提取网络信息,但高维稀疏的表达方式会导致高计算量和高存储量。因此,如何高效表达网络信息、精准刻画节点特征,具有很高的研究价值和广阔的应用前景。近年来,越来越多的科学研究应用深度学习和非线性降维技术,将网络节点编码为低维的嵌入向量。其中,网络表示学习旨在将高维稀疏的复杂网络映射到低维稠密的嵌入空间,该空间保留了网络结构相似度和节点属性关联度,所获得的嵌入向量可以作为后续机器学习算法的特征,有助于在新的嵌入空间中处理各种网络分析任务,如节点分类、节点聚类、网络重构等。本文主要针对文本信息网络,旨在将网络的拓扑结构与节点的文本属性信息共同编码到节点的向量表示中。本文分别提出基于矩阵分解和随机游走的文本信息网络表示学习方法,来自动学习节点的低维嵌入向量。本文的研究内容总结如下:(1)基于矩阵分解的文本信息网络表示学习方法:该方法首先提出一种统一的表示学习框架,将网络的全局拓扑结构和节点的文本属性分别嵌入两种关系矩阵中。接着首次将一种高效的随机奇异值矩阵分解方法引入网络表示学习,对上述关系矩阵降维,连接降维后的矩阵获得整个网络的嵌入矩阵。其中,文本关系矩阵在挖掘节点的文本信息时,采用多种句向量模型,获得文本深层次的语义信息,从而更精准地提取节点特征,提高后续网络分析任务的准确率。通过多组真实网络上的对比实验,表明本文提出的表示学习框架的有效性与合理性。(2)基于随机游走的文本信息网络表示学习方法:该方法提出一种新的带偏置的随机游走策略来探索节点多样的邻居。首先设置结构搜索偏置,通过可调参数控制深度优先采样与广度优先采样的混合程度,充分考虑网络结构的同质性与结构等价性;同时设计文本权重偏置,挖掘节点属性的关联度,两种偏置共同引导随机游走获得节点的上下文序列。最后使用随机梯度下降算法优化目标函数,学习网络的嵌入矩阵。在三个真实数据集上的实验结果证明所提出算法的有效性。
其他文献
2020年是我国决胜全面建成小康社会、脱贫攻坚的收官之年,“三农”问题作为全党工作的重中之重始终备受关注,其中农民问题最为根本。伴随农村经济快速发展、农业产业规模不断扩大,农业经营主体所需资金量不断增加,为有效满足农业经营主体贷款需求,党中央连年发布政策文件提出创新农业保险产品、创新土地流转经营模式、创新农村贷款方式等。伴随“三权分置”思想的提出与政策的完善,农村土地所有权与经营权相剥离,推动农村
量子关联成像,又称作鬼成像,经过20多年的发展,目前正处于从实验室原理研究走向工程应用的阶段。又因其具有抗干扰、超分辨、能极弱背景下成像和非定域成像等优点,使其在星载和机载遥感探测、国防监测、雷达和医学成像的应用越来越广泛,这些领域的应用环境复杂多变,也是对量子关联成像能够广泛应用的挑战。本文主要工作是对量子关联成像系统在工程应用时所遭受的环境干扰进行分析和补偿研究。本文在讨论量子关联成像的原理和
近年来,贝叶斯网络成为不确定知识表达和推理最受欢迎的模型之一。由于传统的贝叶斯网络构造算法中,为了求得节点之间的依赖关系的评分函数,依赖对节点的指数级别的遍历过程,
本文基于观察到的下联合记录值,记录间时间和记录指标,研究了两个具有相同形状参数的威布尔(Weibull)总体的统计推断问题.首先,导出了模型中参数的条件极大似然估计(MLEs).其次,考虑平方误差损失(SEL)函数下的Bayes估计.众所周知,Bayes估计的性能与先验分布的选择有关.通常,在模型中参数均未知的情况下,Bayes估计的一般做法是为参数指定一个一般联合先验.然而,基于一般联合先验对模
随着计算机技术的不断进步和各行业智能化发展的需求,计算机视觉近年来已成为人工智能领域中重要的研究课题之一。计算机视觉具有广泛的实际应用,在工业、农业、医学、军事等领域有着不可或缺的地位。本文重点关注稀疏模型在计算机视觉中的应用,构建了基于稀疏模型的计算机视觉应用体验平台。在系统的设计和实现过程中,本文完成的主要工作包括:第一、介绍了计算机视觉的发展和现状,描述了稀疏模型在计算机视觉中的实际应用意义
近年来GNSS技术快速发展,以高精度、全天候、高效且经济效益高的GNSS三维测量替代传统测量已呈迅速上升的趋势。GNSS定位测量所得为大地高,而我国在实际工程应用中所使用为以似大地水准面为基准面的正常高,将大地高转换为正常高成为大地测量领域的研究热点与难点。通过GNSS测量获取测点正常高的高程转换方法有许多,其中先以GNSS水准拟合得到区域似大地水准面,再以GNSS定位技术快速获取地面点平面坐标,
随着全球经济进入“大调整”时期,经济下行风险和不确定性陡然上升,高级管理人才对企业战略发展的重要性愈发凸显。而科学的激励机制是企业可持续发展的重要保障,更是高管人员不流失的企业焕发内生动力的重要保证。目前,我国能够开展工程承包业务的规模以上企业有200余家,业务涵盖了国际国内单一分包及一体化总承包。XX国际工程公司身为大型跨国工程公司,通过近35年的发展,现在已成为一家拥有众多子公司的大型跨国工程
在经典粗糙集理论中,下(上)近似算子事实上是拓扑内部(闭包)算子。下(上)近似算子的这一性质允许一些学者去研究粗糙集的拓扑结构。近来又有许多基于模糊覆盖的粗糙集模型被提出,这些模型都是粗糙集模型的推广。然而对这些新模型的性质的研究却极少从拓扑的角度展开。基于马利文所提出的β覆盖的想法,我们介绍了β拓扑的概念,并以此作为一种研究基于模糊覆盖的粗糙集模型的理论工具。此外,我们还提出一个新的基于模糊覆盖
无线车载自组织网络(Wireless Vehicular Ad-hoc Network,VANET)由车辆节点组成,节点间以相互协作的方式建立网络,能够实时感知周围交通环境并进行实时交互,通过预防事故的发生来提高道路的安全性。由于与安全应用有关的数据需要被周围所有的车辆接收,因此诸如事故等安全类消息将以广播的方式进行传输,所以VANET中的节点通过定期广播信标消息来感知周围环境。媒体接入控制(Me
近年来企业越来越意识到员工工作满意度不仅与企业本身的稳定和发展有关,也关系到员工自身的稳定,同时会影响他们在生活和工作中的积极性和乐观性。因此,如何有效提高员工工