基于图神经网络的文本分类方法研究

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:watta515
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域的重要分支,近年来吸引了众多科研工作者的关注。由于文本数据易于编辑等特点,网络中大部分文本是由用户手动构建并上传。因此,对网络文本的规范化处理并进行不同粒度的文本分类对信息检索领域有着至关重要的意义。传统的文本分类是将文本作为序列化的信息来进行处理,使用一条文本中前面的序列预测后面的序列、通过中心词对上下文进行预测等方式,使分类器在继承旧序列信息的同时学习新序列的知识,从而编码整个文本序列的信息。由于文本类数据集中不仅包含有序列信息,文本之间还隐含着类似图结构的相互作用关系,例如:知识图谱、社交网络等。为了对此类信息进行建模,近几年,基于图神经网络的文本建模方法逐渐引起了研究者的注意,该类网络能够将序列化的文本数据构建为图结构数据,将文本中的字、词乃至整条文本作为图的节点,文本之间的相互作用关系作为边,通过节点之间的边传递信息以特征聚合。基于上述所说,本文以图神经网络为研究方法,地理文本和用户检索日志文本作为研究对象进行文本分类任务。本文的主要研究内容如下:(1)针对地理文本的二分类问题,本文提出了一种基于注意力机制的图神经网络。该方法首先将地理文本中的地理信息构建为具有全局信息的图结构文本,然后在图卷积网络的基础上引入了注意力机制对地理文本中的地理信息赋予更高的权重,增强图注意力网络捕获文本中关键信息的能力,实现从网络数据中识别出蕴含地理信息的地理文本,本质上属于文本二分类任务。为了验证上述两种方法的有效性,本文构建了包含地理信息的文本二分类数据集用于验证图注意力网络的有效性,为了使模型识别含有地理信息的文本,总结了现有公开的中文数据集,手动标注并构建了适用于地理文本分类的中文数据集。(2)针对用户检索日志文本的多分类问题,本文提出了一种基于分散-聚合的超图神经网络。该模型的目标是利用用户在搜索引擎中输入的检索文本配合检索结果来识别用户真实的检索意图,本质上属于文本多分类任务。该方法还解决了对大规模用户检索日志文本数据建模的问题,同时能够识别文本间的高阶语义信息来完成文本多分类。模型将百万级别的数据集分为多个小型的子数据集,对每个子数据集构建超图并在隐式特征水平聚合,通过分散-聚合的方法不仅完成了大规模的用户意图识别任务,还能够生成全量数据集的全局特征表示。为了验证模型的有效性,本文构建了包含多属性用户搜索日志的文本多分类数据集。数据集包含300万用户搜索引擎中的搜索日志,每条日志包含文本字段和标签字段。此数据用于验证超图网络模型生成全局特征和高精度文本分类的能力。
其他文献
随着“低碳经济”理念的深入,消费者的环保观念逐步增强,并产生参考低碳水平效应进而影响企业的减排行为。在供应链体系中,由于环境的复杂性和对碳减排认知的偏差,供应链成员的互惠利他偏好也会影响企业的减排行为。在二者的影响下,企业在采取各种方式进行减排的同时,往往会利用自身优势将难以完成的碳排放转移给供应链上下游企业,以实现自身利益最大化。实践中,供应链企业间碳排放转移的产生不仅使得企业减排责任难以准确界
学位
DNA甲基化是指DNA序列的特定碱基在DNA甲基转移酶的催化作用下通过共价键结合一个甲基基团的化学修饰过程。DNA N4-甲基胞嘧啶(4mC)和DNA N6-甲基腺嘌呤(6mA)是DNA甲基化的两种表现形式,它们会影响哺乳动物的生长发育,但具体机制尚不明确。因此,准确地检测它们在基因组的位置对深入了解其形成机制和功能作用至关重要。传统湿实验和高通量测序技术成本高、耗费时间长,难以应对爆炸性增长的基
学位
当今时代,生物信息学研究受到越来越多的关注,在生物信息学多个研究领域中,林木基因组是非常重要的研究方向之一。林木基因组在新一代高通量测序技术基础上,测序产生了海量的基因组数据信息。面对越来越多的基因数据,如何有效地从基因序列中收集信息,从而解决生物学问题是当前热门的研究方向。本文在林木基因组已有的研究基础上,从基因组数据库中获取到多种林木基因组数据,完成基因序列处理,序列数据的序列比对和多序列比对
学位
治疗肽是一种由20种氨基酸组成,总长度一般在5~50之间的氨基酸复合物,根据其相关功能可以用作生长因子、激素、神经递质和抗感染剂等,在生物学中起着至关重要的作用。过去几十年中已鉴定出7000多种多肽,具有抗癌、抗菌、抗炎、抗病毒等多种治疗特性。由于这些治疗特性,多肽在提供新的治疗方法方面展现出了巨大的潜力。例如,抗炎肽被用于治疗各种炎症性疾病,如阿尔茨海默病;抗癌肽被用于癌症治疗;细胞穿透肽被用做
学位
中国已经进入人口老龄化社会。面对我国快速增长的人口老龄化问题和养老服务需求,各地区政府、企业家纷纷涉足于养老服务行业,结合当地实际情况,进一步制定了具体的政策方案支持养老产业的发展。为了全面放开养老服务市场,大幅提升养老服务和产品的有效供给能力,使供给结构更加合理,我国《关于全面放开养老服务市场提升养老服务质量的若干意见》指出以供应链模式引领养老服务行业发展。养老服务产业的发展不仅顺应我国老龄化、
学位
随着重识别技术的发展和野外阿穆尔虎数量不断减少,保护这种野生动物对于维持物种多样性至关重要。在面临野外栖息地丧失、偷猎盗猎问题的不断激增,通过重识别方法对单只阿穆尔虎进行保护和追踪变得更加有意义,这项任务越来越依赖于能够精准检测该群体的地理位置和身份信息。本文为解决在阿穆尔虎重识别中遇到的问题,对野外阿穆尔虎重识别中所用到的方法进行了细致的调研、实验、分析,设计了基于正则化和领域适应的阿穆尔虎身份
学位
随着网络数据的飞速增长,网络信息的真实性与可靠性变得越来越重要,但不断涌现出大量恶意诱导用户的虚假评论使其同时充满了挑战性。因此,自动识别虚假评论给用户带来更为真实可信的资讯至关重要。针对虚假评论识别,现有的大部分基于神经网络的方法虽解决了评论文本上下文语义信息的问题,但能够学习文本深层语义信息的深度学习模型应用较少,未考虑用户、评论与产品三者之间的隐含表达模式。在对数据进行分析之后发现:用户在发
学位
番茄作为我国一种具有悠久历史的传统农作物,不仅成为人们日常饮食中的重要部分,而且在我国农业战略资源中发挥着不可替代的作用,然而随着番茄叶片病害逐年加重,严重制约了番茄产业的蓬勃发展。人工识别番茄叶片病害需要大量的经验和时间,且对识别人员能力要求较高。随着图像处理、机器学习、深度学习等知识技术的兴起,对农作物叶片病害实施自动检测变成现实。本文基于深度学习理论,利用卷积神经网络对Plant Villa
学位
糖尿病性视网膜病变(Diabetic Retinopathy,DR)是一种常见的糖尿病并发症,是目前劳动人口致盲的主要因素,影响着全世界的糖尿病患者。临床经验表明,及时的诊断与治疗可以极大地降低糖尿病性视网膜病变致盲的风险,因此对糖尿病患者定期进行糖尿病性视网膜病变筛查具有十分重要的现实意义。针对医疗资源分布不平衡的现状,使用计算机辅助诊断技术进行糖尿病性视网膜病变筛查是十分有效的解决方案。目前有
学位
2013年德国政府提出“工业4.0”战略,并且在汉诺威工业博览会正式推出,这标志着最新一轮工业革命的开端,该战略旨在利用信息化技术提升制造业的智能化水平。两年后中国提出《中国制造2025》战略,其中的两项主要战略任务为:推进两化(信息化与工业化)深度融合,全面推行绿色制造。调度作为制造业中重要环节,对调度能耗水平进行优化是响应绿色调度的一种重要方式。此外,结合企业不同产品在不同机器中加工效率不同的
学位