基于有偏随机游走和掩码语言模型的维基百科文章图嵌入方式研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:liuxpeter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基百科现在是全世界最流行的多语种在线百科全书之一。维基百科中的文章近些年来迅速增长,每天都会有志愿者提交新的请求(创建新的词条文章,修改现有文章的正文或分类信息,合并相似文章以及删除错误文章)。通过提取文章中的链接信息可以构建一个维基百科文章的图,该图中节点代表文章,有向边代表至少存在一个超链接从源文章到目标文章。利用该图可以进行图嵌入(Graph Embedding)的研究来得到各个文章节点的向量,进而利用该向量来做节点分类(Node Classification)和链接预测(Link Prediction)。预测与分类结果可以给编辑人员提供极大的参考价值,大大降低编辑人员的修改负担,另外也可以提示可能存在的缺失链接,应该删除的错误链接以及需要补充或修改的分类信息。传统图嵌入方法仅考虑静态图嵌入或者动态图嵌入,并且没有考虑到节点的语义信息。针对这些问题,本文提出了一种基于有偏随机游走并且同时适用于静态图与动态图的图嵌入方法。首先,利用预训练的Ro BERTa模型计算文章间的相似度,以及利用单词粒度的公共分类信息计算文章类别间的相似度。其次,定义有偏随机游走中有偏的计算方式,从而得到该点到所有可能的邻居的概率,进而使用softmax函数进行归一化。然后从所有邻居节点中按照其概率的大小随机选择一个邻居作为下一步游走的节点,同时根据下一个节点的标题构造标题序列。最后利用生成的所有标题序列对Ro BERTa模型进行进一步预训练(Further Pre-training),之后拼接文章的标题和摘要作为文章的内容,利用之前训练好的Ro BERTa模型得到文章的嵌入向量。我们把数据集划分为静态图和动态图。图中每个节点代表一篇维基百科文章,每个文章拥有三个属性:文章标题、文章摘要以及文章分类,图中两点之间是否存在链接取决于维基百科页面镜像中是否存在到另一篇文章的链接。其中,一个静态图由7个主题下的所有文章组成,文章内容来自于2021年2月1日的镜像文件。两个动态图由同一主题下的所有文章从2020年1月1日到2020年7月20日(一共13个时间戳)的所有镜像构成。针对静态图我们设计了节点分类和缺失链接预测实验,其中节点分类中我们同时尝试了使用逻辑回归和随机森林分类器来评估嵌入向量的效果。针对动态图我们设计了图重构和新节点链接预测实验,其中图重构中我们同时尝试了使用逻辑回归和自定义的全连接神经网络作为分类器来评估嵌入向量的效果。实验结果表明,我们提出的维基百科文章嵌入方式更加合理,能更好的表现文章的属性。
其他文献
时延敏感型物联网场景要求物联网平台提供低时延、高质量的智能服务。中心化架构的物联网平台计算中心距离终端设备远,数据传输延迟高,采用边缘计算技术在近设备端部署服务可以解决云中心延迟高的问题,但边缘云的分散化部署导致服务管理协同困难,同时单个边缘云计算资源有限,难以独立处理大规模的计算任务。针对以上问题,本文提出一种适用于时延敏感型应用场景的物联网边云协同架构,基于所提出架构研究面向大规模时延敏感任务
学位
随着天地一体化信息网络的构建,空间信息网络得到进一步发展,卫星作为空间信息网的重要组成部分,承担着数据获取、查询和传递的重要任务。卫星所处的空间环境复杂恶劣,信道环境开放,卫星易受到多种形式的攻击。在数据层面,受到攻击的卫星节点可执行一定概率丢包的灰洞攻击,从而影响卫星网络性能,对数据传输造成很大影响。本文通过对卫星节点处理消息包的行为作为依据,研究安全路由的构建机制,保障信息的安全有效传输。具体
学位
无线局域网因其低成本、便携性、易扩展等特点,广泛应用于企业、家庭等场景。随着IEEE 802.11ax(Wi-Fi6)标准化进程的基本完成,802.11工作组开始制定下一代WLAN系统标准,即IEEE 802.11be。802.11be协议设计的基本目标为极高吞吐量,在PHY层支持更高阶的调制方式,更多的空间流以及更灵活的资源单元分配,在MAC层研究可进一步提升系统吞吐量和降低时延的关键技术。本文
学位
随着无人机智能化水平的不断提高,无人机的应用领域越来越广,单个无人机已经不能满足复杂的任务场景需求,无人机集群协同控制技术成为无人机领域的重要发展方向。在真实无人机集群上测试无人机集群协同控制系统是一个复杂的过程,需要投入大量的时间、金钱和研究精力。因此,无人机仿真平台可以作为无人机集群技术先期验证的有效手段,促进技术迭代,降低试验成本。目前大多数无人机仿真平台主要集中在无人机飞行模型、传感器模型
学位
电子健康记录(EHR)的共享对于医学技术的研究与发展具有深刻的意义。随着医疗机构由纸质办公系统向电子健康系统的转变,基于云计算的EHR共享方案带来了很多方便。但基于中心架构的云存储共享方案存在如云服务器半可信、云与恶意者共谋等安全问题。近年来,医疗数据泄露的事件层出不穷,对医疗数据的隐私保护与安全共享成为人们越来越关注的问题。另一方面,区块链技术是随着数字货币普及而兴起的分布式账本技术,具有去中心
学位
随着智能Android设备普及率的提高,随之上线的各类应用程序也越来越多,但随之而来的安全隐患也逐渐升高。近些年有关泄露隐私、财产损失、诱导欺骗等类似的事件层出不穷,因此,维护Android软件环境的安全性刻不容缓。本文基于对现有Android恶意软件检测方法的研究,发现现有检测方法大都使用单一特征或组合特征,而这些方法存在两方面的问题:一方面,这些方法大都忽视了特征之间的关联,而且所使用的字符串
学位
随着21世纪科学技术的快速发展,互联网对人们的生活产生了巨大的影响,网络已经渗透到了人们生活中的所有领域。采用复杂网络的分析方法,能准确地表示网络的连通性等统计特征,在网络分析设计和其他应用中具有重要意义。目前描述这些网络图的方法有图的最短路径介数中心性、聚类系数和度分布等,虽然这些度量在特定方面为网络图提供部分信息,但仍然无法提供复杂网络的多方面特征。在现实世界中,通常所有抽象的复杂网络都存在一
学位
近些年来,在线社交媒体作为一股重要的力量推动了大数据时代的降临,在扩大自身影响力的同时对人类社会的发展也产生了重大影响。众多线下活动逐渐拓展为线上活动,如微博、微信、BBS及国外推特之类的社交平台,用户通过在此类平台上注册账号进行相关的社交活动。各类社交平台的出发点自然是提倡良性的扩展交际圈,然而在社交平台上引发的恶意行为却是屡禁不止。由于社交网络具有开放性、及时性的特点,一些攻击者通过异常账号散
学位
随着第五代移动通信技术的逐渐成熟,未来采用5G网络接入的物联网(Internet of Things,Io T)设备将会成为智慧城市的重要参与者,得到更广泛的应用和发展。Io T技术是智慧城市应用(例如智能交通系统、智慧社区、智能建筑、智慧医疗等)的关键技术,通过连接海量的Io T设备并利用大数据进行智能化的分析和处理可以满足多样化的服务,创建真正智慧型的社会。然而,智慧城市中的海量Io T设备由
学位
社交网络是21世纪最富有活力的互联网应用之一。在我们生活中的每一天里,都有亿万互联网用户通过在线社交网络交流联络、分享信息。然而,社交网络蓬勃发展的背后却隐藏着潜在的数据安全隐患。各类社交网络提供商都会定期向公众或者研究机构发布社交网络用户的数据,以便于他们开展社会计算、广告推荐、应用测试等诸多商业或科学研究。因此,网络中所有用户的各类信息便有可能无形地泄露至社交网络的攻击者手中。尽管这些社交网络
学位