基于图神经网络的层级文本分类

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:xuhonghuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理(Natural Language Processing,NLP)中的一个基本问题,文本分类是根据文本内容将给定文档分配到一个或多个类别的任务。根据每个文档对应类别标签的数量,文本分类可以分为单标签文本分类和多标签文本分类。在实际任务中,许多文档都可以归类到多个类别,而这些类别之间也存在着一些联系,可以组织成树或有向无环图。将多个层次结构的类别分配给文档的任务称为层级性多标签文本分类任务(Hierarchical Multi-label Text Classification,HMTC)。在层级性多标签文本分类任务中,和一个文本匹配的类别可以在多个层次结构中同时出现,任务中需要匹配到所有和文本相关联的类别。层级性多标签文本分类任务在现实中也有着一些应用,比如在电商平台上,商品标签是层级性的,如饰品-服配-围巾或饰品-眼镜-太阳镜。根据商品的文本描述,对商品进行分类就是一个层级性多标签文本分类任务。现有的层级性多标签文本分类的方法大致可以分为传统方法和基于深度学习的方法两类,从分类效果来说,在大多数层级性多标签文本分类数据集上基于深度学习的方法性能更好。然而其中的大部分方法只是简单地把类别标签当做监督信息,或者简单地利用标签的嵌入表示,而没有发现标签在引导词向量嵌入表示的学习上也有着充分的作用。此外,其中的大部分工作只考虑到了不同层级的标签之间的垂直相关性,而忽略了同一层级的标签之间的水平相关性。本文提出的第一个工作是基于标签语义引导松耦合异构图卷积网络(Loosely Coupled Heterogeneous Graph Convolutional Neural Networks,LCHGCN)。LCHGCN能够学习单词、文档和标签的嵌入表示。而在其他模型中,经常忽略标签节点在引导学习单词嵌入中的作用,也忽略了标签节点的嵌入表示在分类任务中的作用。此外,LCHGCN没有使用紧耦合的方法,将所有的节点加入到一张图中,而是将单词节点和标签节点作为核心图,将文档节点和单词节点作为单词-文档图。这种划分方法在降低运算复杂度的同时,也能有效避免在图神经网络层级过高时发生的过平滑[1](over-smoothing)问题。此外,核心图中只采用单词节点和标签节点,也可以避免不同种类节点引导单词表示学习时发生的信息混淆问题。本文提出的第二个工作是基于标签间垂直和水平结构的层级性多标签文本分类框架(Horizontally and Vertically Hierarchical Multi-label Text Classification,HVHMC)。以往的工作在处理标签结构时,往往能考虑到各层级之间的垂直依赖,然而忽略了同一层级标签之间的水平依赖。我们提出的HVHMC考虑了标签结构之间水平和垂直两方面的依赖关系,使得模型更能捕获到类别和文档之间的关联。我们将本文提出的两个方法应用到了三个有现实意义的层级性多标签文本分类数据集上,实验结果表明本工作中的方法有着最好的性能,这证明了我们方法的有效性。
其他文献
分子组装是化学合成外创造新物质和新材料的重要手段,实现可控分子组装体系的构建及其功能化需对组装过程物理化学机制有深刻理解。分子组装体系中基元种类多、结构复杂,领域内研究者缺乏适合分子组装的原位、高分辨表征手段。组装过程动力学及组装机理的研究成为该领域的难题和发展瓶颈。虽然针对常规化学体系的动力学研究已较为成熟,但难以满足分子组装动力学研究需要。针对目前分子组装动力学表征面临的挑战和瓶颈,本论文从传
学位
本文运用历史学、环境史学和历史人类学的理论与方法,主要使用“兴安西省阿鲁科尔沁旗实地调查报告书”等资料及笔者进行的田野调查资料,以阿鲁科尔沁旗巴彦温都尔苏木巴彦宝力格嘎查为例,就内蒙古东部山区草原游牧的变迁进行了考察,着重考述了分布于兴安岭南麓的山区游牧业的传统牧道、放牧方式的变迁过程及其原因。仅存于兴安岭南麓山地游牧的研究,即赤峰市阿鲁科尔沁旗北部山地草游牧的研究成果近年陆续问世。其中,对该地区
学位
本课题的研究着眼于韩国《经世训民正音图说》与日本《新增韵镜易解大全》,这两部著作都是在“汉字文化圈”范围内产生,都反映了邵雍的易学观念。对于两个国家出现的等韵图,我们用文献考证法、历时和共时对应关系推证法、音注模拟法等方法进行了其与《经世图说》及《易解大全》的比较研究。在邵雍易学的接受方面,《经世图说》直接提出与训民正音结合修订的《训民正音准皇极经世四象体用之数图》,并且在韵图的声母齿音调整方面也
学位
随着科学技术的不断发展,机器人越来越多的被应用于各个行业,能自主规划路径完成指定任务的移动机器人是全球学术界的研究热点。本文研究了移动机器人在动态不确定环境中执行高层复杂任务的运动规划问题。综合考虑环境中的各种不确定性因素,本文使用马尔可夫决策过程(Markov Decision Process,MDP)和部分可观的马尔可夫决策过程(Partially Observable Markov Deci
学位
软体机器人是由硅胶等低杨氏模量材料为主体构成的机器人,由于其具有安全性、柔顺性、灵活性等优点,它们有希望应用于医疗健康、家庭服务等应用领域。然而由于其结构复杂、材料非线性等原因,软体机器人的控制目前仍然是一个挑战。强化学习等机器学习方法在软体机器人的控制上展现了巨大的潜力。然而,由于强化学习的样本效率较差,它们通常需要大量训练数据,而直接在真实软体机器人上采集大量训练数据需要耗费大量时间。本工作提
学位
单原子催化剂(SAC)由于具有较高的原子利用率和特殊的催化活性,在工业催化领域具有广泛的应用前景,当前对SAC的研究方兴未艾。目前已有合成SAC的策略主要有两种:一是在载体上嫁接锚基锚定金属单原子,二是金属单原子直接附着在金属或金属氧化物等载体表面上。本论文分别选取涉及两类SAC合成策略的若干代表性催化体系:ⅰ)表面嫁接型:活性碳(AC)以及改性AC负载Au催化乙炔氢氯化反应;ⅱ)直接附着型:Pt
学位
纳米颗粒催化剂的性能除了金属颗粒的尺寸、晶面效应密切相关以外,载体和表面配体也起着举足轻重的作用。载体可以利用表面缺陷锚定金属,使其在苛刻条件下保持高度的金属分散性,还可通过金属-载体相互作用调变锚定的金属纳米颗粒的结构和电子性质。此外,金属表面附着的有机配体对催化性能也有着重要影响。近年来,合成化学的迅猛发展使有效调控金属-载体/配体界面的产生成为可能,结合先进的表征手段和精准的理论计算,可帮我
学位
随着互联网的发展,社交媒体已经成为一个大型的信息传播平台,而在各种信息传播的过程中,网络谣言也悄然诞生并广泛传播。由于网络谣言给社会和人们的生活带来了许多不良影响,它已成为话语分析领域重要的研究话题之一。针对网络谣言的治理,目前大多学者从法律制度制定、各部门联合整治、网民素质提升的角度展开相关研究。然而,对于辟谣话语的建构尚需进一步探讨。鉴于此,本文尝试以Fairclough的三维分析模型为研究框
学位
好家风是良好社会风气形成的重要支撑,长效机制的科学构建,有助于深化好家风对社会风气发展的影响力。本文简要分析了好家风的基本原则,深入阐述好家风与良好社会风气的相关性,归纳长效机制构建思路,经由丰富家风传承活动、加强好家风建设引导、更新家风内涵、融合净化社会风气等路径,有效改良社会风气,推进新时代社会文明建设。
期刊
爱国行为是爱国主义的外在表现和最高形式。随着互联网的发展,现实的爱国行为在网络空间中延伸与发展,不仅体现着爱国主义的本质特征,还彰显出鲜明的时代特征。作为网络技术发展的产物,网络空间爱国行为更具复杂性,当网络爱国事件发生时,往往容易发生非理性爱国行为,不利于维护国家利益与国家形象以及网络爱国主义教育的深化发展,因此网络空间非理性爱国行为问题的相关考察具有重要现实意义。在明晰网络空间非理性爱国行为的
学位