基于多方面特征表示与图卷积网络的短文本分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:jinsanshao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今大数据互联网时代,网络上每天都会出现大量的短文本,对这些海量短文本信息的管理成为了一个难点。短文本分类作为自然语言处理中的一项基本任务,如何准确高效的将短文本分类,从而更好地服务自然语言其他任务,一直以来都是研究的重点方向。最近,图卷积网络技术在各领域兴起并在各领域获得了不错的效果,例如在网络分析、智能推荐和生物化学领域等。图卷积网络是一种简单且高效的模型,它能够很好地捕获节点与节点之间的结构信息。最近有研究人员将文本数据表示成图结构,进而可以捕获到文本的全局信息,使其在文本分类领域成为一个新的研究方向。但是,图卷积网络对文本的局部上下文语义信息和局部特征信息提取不足。另一方面,由于传统文本构图方式单一,不能使模型捕捉到文本丰富多样的信息。针对上述两方面不足,本文从构建图卷积网络分类模型和捕获多方面文本特征表示两个角度出发开展研究工作:(1)本文提出一种新的模型,模型首先使用滑动窗口为图中节点添加连边构成文本图。然后利用双向长短时记忆网络(Bi_LSTM)和卷积神经网络(CNN)混合提取文本的上下文语义信息和局部特征信息去丰富图卷积网络(GCN)的文本表示,同时使用图池化层筛选出重要节点帮助卷积神经网络捕获文本深层局部特征信息,使得模型能更好的表示文本。最后将获得的节点特征表示送入分类器得到分类结果。通过在多个数据集上运行本文模型,分类准确率均比GCN及其他模型有所提升,证明了本文引入Bi_LSTM和CNN模型的有效性。(2)本文提出一种新的学习模型,该模型使用超图为每个文档建模,通过超边连接多个节点可以捕获单词之间的高阶信息。同时在超图中使用语序、语义和语法三种语言信息为节点之间构造边,这样可以使模型提取到多方面文本特征表示,让学习到的单词向量具有多样性和丰富性,以此提升单词的表示能力。其次使用一个双重注意力机制在节点级和超边级分别捕获重要单词和关键超边,使得关键信息更加突出,增强模型的学习能力。并且以较小的内存消耗获得了更好的模型计算能力。在三个数据集上的运行结果表明,本文构建的多类型边文本图比单一类型边文本图确实捕获到了文本丰富的信息。最后本文还运行相关实验,探究单词嵌入维度和训练集比例大小对实验结果的影响。
其他文献
近年来随着深度学习的发展,人体三维重建工作在神经网络的支持下,成为了新的研究热门,并涌现出了许多基于深度网络的方法,但这些人体重建工作往往要求在没有遮挡物的情况下对人体进行重建。然而,在现实生活中,由于人与物体的频繁交互运动,人被各种物体遮挡的情况是随处可见且不可避免的。当人体出现被遮挡的情况时,现有的方法往往不能够得到令人满意的重建结果。针对这个问题,本文提出了针对遮挡人体重建鲁棒性较好的基于多
学位
人脸面部表情是人类情感表达的重要方式之一。微表情是一种可以反应人内心真实情感的表情。在人们试图隐藏自己内心的真实情感时,微表情会自发的产生。微表情既无法抑制也无法模仿,可以作为判断人真实情感的重要手段。因此微表情在医疗健康,国家安全等方面具有广泛的应用前景。相比于宏表情,微表情的持续时间短,动作幅度低。这些特点导致通过人工对微表情进行检测和识别十分困难,因此对于自动微表情的分析有着紧迫的需求。微表
学位
近年来,深度卷积神经网络在各种计算机视觉上取得了突破性的进展,其应用范围也越来越广。然而,深度卷积神经网络需要强大计算能力、高存储空间和高内存占用的特性却严重阻碍着它的应用和发展,使得这些高性能的模型难以部署在一些资源受限的设备上,也无法部署在对实时性要求极高的系统中,如智能手机、树莓派、嵌入式AI系统等。通道剪枝是一个能够减小模型尺寸的研究领域,而为了更加有效地降低神经网络模型的资源占用,更小地
学位
自然图像抠图是图像处理和计算机视觉领域中一项充满挑战又十分重要的基础研究,具有广泛的应用价值。现有的自然图像抠图算法在抠图精确度以及复杂场景中的抠图方面存在一定的局限性,同一场景中不同区域的抠图难度存在不均衡的现象。研究发现,针对精细化抠图和复杂场景的抠图,可通过注意力机制提取并增强有效特征,结合多尺度侧边监督对抠图结果进行细化;而针对抠图中的不同区域抠图难度差异性大的特点,可基于注意力机制对抠图
学位
车辆图像精细化识别能够准确判断出图像中车辆的品牌、系列、年份,是支撑智慧交通系统的重要技术之一,能够缓解车辆保有量快速增加给交通管理部门带来的压力,使得城市治理更加高效。现有算法使用完整的车辆图像进行精细化识别,已经达到了较好的效果。但在城市交通复杂场景下车辆会被其他车辆或物体遮挡,以致于精细化识别算法所处理的车辆图像是不完整的,极大限制了算法性能。此外,利用检测算法从交通卡口摄像机拍摄到的全景图
学位
聚类可以在没有监督信息的指导下,将数据划分成不同的簇,使得相似的数据尽可能在同一个簇中,而不相似的数据被划分在不同的簇中。“物以类聚,人以群分”,在模式识别、医学诊断、生物学等领域中存在着大量需要将数据按一定规则划分的场景。因此,聚类成为无监督学习中一个被广泛关注的问题,一些经典的方法如K-均值、谱聚类、子空间聚类也得到了广泛的应用。聚类方法尽管操作简单,适用性强,但是由于缺少监督信息的指导依然存
学位
随着生物医学领域研究和信息技术的发展,与生物医学研究相关的文献、数据等资料呈爆炸性增长。海量的生物医学文献报道了特定生物分子(如基因、miRNA和lncRNA等)在食管癌发生与发展中的作用,例如促进或抑制食管癌发生、作为预后因子以及生物标志物等。上述信息对于食管癌早期诊断以及药物研发具有重要意义。但是这些信息分布零散,并且食管癌文本中包含相当多的特定专有名词和术语,所以在通用语言上提出的实体识别和
学位
随着互联网技术的不断发展,越来越多的用户习惯于在各类社交平台上交流观点、分享日常,这种线上的表达方式带来了庞大的社交文本数据。作为一种流行的社交媒体表达方式,社交文本数据不规则的语言结构和语法表达方式使得针对社交文本的情感分析和观点挖掘变得十分困难,然而除纯文本外,社交文本内容还包含着情感鲜明的表情符号。表情符号作为一种特殊的符号语言包含了使用者的丰富情感,在辅助理解社交文本情感任务中起到了非常关
学位
在科学技术飞速发展的21世纪,知识产权的保护变得至关重要,专利作为首要的保护方式,其涵盖90%以上最新的技术信息,且有诸多新型技术只以专利文献的形式公开,通过对专利文献进行知识挖掘与统计分析,能够快速了解国内外相关技术的发展现状和发展趋势,进而为国家和企业制定发展战略提供可靠的依据。近年来,专利申请和授权的数量整体上呈上升趋势。由于专利数量的快速增长,面对海量的专利数据,为了快速找到相关领域的专利
学位
近年来,随着移动互联网的蓬勃发展,人们接触互联网越来越便利,网络上关于用户兴趣和偏好的短文本呈现爆炸式增长,都要求短文本清晰明确的传达语义,因而从短文本中学习有识别力和清晰的潜在主题是一项重要而有意义的研究工作,在文本分类、电子商务和推荐等领域得到广泛应用。然而,现有的短文本主题学习方法面临着捕捉语义相关共现短语不充分的挑战。因此,本文提出了一种基于异质信息网络的短文本主题建模学习的方法(HIN-
学位