基于图神经网络增强的文本分类算法

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:crying___leaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今这样一个大数据时代,仅依靠人工方式对文本数据进行处理是效率低下、成本高昂的。随着计算机硬件与计算能力的蓬勃发展,使用机器通过文本分类算法来处理文本数据逐渐成为一类主流方法,受到了各行各业广泛地关注与应用。文本分类是自然语言处理领域中的一个热门的基础任务,其目的是为各式各样的文档指定预定义的类别标签。现有的文本分类算法面临的主要挑战,包括但不限于以下三个方面:1)如何提高算法模型对文本特征的提取能力与聚合能力,以及模型形成高层次文本表示的能力;2)如何探索文本数据之间的内在相关性并加以利用,以及更加充分地发挥数据标签信息的作用;3)针对基于图神经网络的文本分类模型,如何为其提供一种更高质量的输入数据形式,在增加输入文本数据的先验语义信息的同时,提高模型预测能力的上限。本文围绕这三个方面的挑战展开研究,提出了两种基于图神经网络的文本分类算法,主要研究内容如下:1.提出了一种基于多状态图神经网络的文本分类算法。首先,对文本数据进行预处理操作后,将每份文档单独构建为图结构数据,作为适配模型的输入数据;其次,对图卷积神经网络与门控图神经网络进行改进,引入了网络层的历史状态信息,在缓解模型中存在的过度平滑问题的同时,增强了模型的特征提取能力;最后,借助多头自注意力机制对关键词的挖掘与利用能力,从多个文本子空间来形成文本的高质量表示。2.提出了一种基于双重图对比学习的文本分类算法。首先,将文本数据构建为图结构数据,并对图的边引入了权重值,其权重值由TF-IDF算法与TextRank算法融合得到,以增加输入数据所承载的信息量;其次,针对文本分类任务中对文本关键词的强依赖性,设计了三种适用于带权图结构数据的数据增强方法,以得到合理的、具有多样性的增强视图;最后,为了挖掘文本数据之间的差异化信息,提高标签信息的利用程度,将自监督图对比学习与有监督图对比学习方法相结合,提升算法对不同类型的图神经网络的适配能力。本文方法能够有效获得高质量的文本表示并提升模型的文本分类效果,在六个公开的文本分类数据集上与近年来的九种文本分类算法模型进行对比实验,实验结果充分表明了本文所提的两个方法的性能优势。
其他文献
通过分析云平台接入日志中的RESTful API数据可以识别出当前访问者的资源访问动作是否存在异常。但RESTful API数据中正常类与异常类的高不平衡率使得异常检测模型的准确率下降,同时潜在的未知异常是已知异常以外不可忽略的安全威胁。为解决以上问题,本论文首先提出基于KNN-DPC聚类的RESTful API采样方法,解决RESTful API数据的不平衡问题,然后在此基础上提出基于聚类算法的
学位
随着容器云平台的蓬勃发展,云中心托管的容器服务数量越来越多,随之承载的租户规模也越来越庞大。租户是向云中心付费的实体,是云任务的发布者,保障租户的服务质量(Qo S)在多租户容器云平台显得尤为重要,同时,节点负载动态变化会引发容器迁移,传统的单一目标迁移策略并不能满足大量租户的差异性需求。基于上述问题,论文重点研究了多租户环境下容器云资源放置和迁移策略,在保障租户Qo S的同时,减少云中心运营成本
学位
期刊
k-means算法被誉为十大经典数据挖掘算法之一,自被提出以来就因其高效的特性而被广泛应用于各个领域。但是,随着互联网的深入发展,网络上的数据呈爆发式增长,使得k-means算法的效率在大数据场景中面临挑战。为了进一步提升k-means算法的效率,本文分别针对精确k-means算法和近似k-means算法各提出了一种加速策略。本文的具体工作如下:1.本文针对精确k-means算法提出了一种基于多粒
学位
自改革开放以来,人们生活水平得到极大改善,对机动车的需求量逐年递增。机动车虽然能够方便人们出行,但是其数量的快速增长加剧了城市道路交通拥堵。交通流量预测是智能交通系统中必不可少的一部分,它不仅能帮助出行者做出更好的出行决策,还能辅助交通管理部门制定更有效的管理措施。因此,准确有效的交通流量预测是提高交通管理服务质量的重要基础。交通流量预测是通过挖掘历史交通流量数据的时间特征或空间特征进行预测,其研
学位
人们在感知世界时,视觉是最重要的一部分,而视觉又是基于图像的。对于一副包含了丰富信息的图像,研究学者们的关注重点是如何从众多图像信息中提取出那些对计算机视觉任务最有用的特征。因此,图像特征提取就成为了计算机视觉任务中极为关键的环节。基于手工设计的方法和基于深度学习的方法是特征提取中的两大分支领域。其中,手工方法通过人类的视觉特性去探索图像中的规律,并设计出具有特殊含义的特征。本论文主要针对手工方法
学位
深度神经网络作为深度学习领域中的关键技术,现已被广泛应用于各种人工智能系统以实现不同的任务需求,如图像分类、人体姿态检测、人脸识别等。然而近几年的研究表明深度神经网络是脆弱的,其极易受到对抗样本的攻击。所谓对抗样本是指添加了对抗扰动后的图像,其中扰动是精心制作且人眼难以察觉的。对抗样本能够使深度神经网络在推理时给出错误结果,这导致研究人员开始关注深度神经网络的安全性问题。因此,如何提高网络的鲁棒性
学位
随着移动互联网的蓬勃发展,大数据给机器学习的应用提出了新的挑战。稀疏多元逻辑回归(Sparse Multinomial Logistic Regression,SMLR)被广泛应用于文本分类、图像分类和多目标识别等领域。7)1正则化的引入让SMLR具备了特征选择的能力,这在处理图像和文本等具有稀疏性的分类任务时具有很好的分类性能,但也导致其目标函数无法直接求得解析解,因此SMLR通常采用迭代的方法
学位
目前生物医学文本数据增长迅速,但其中的有效信息难以提取,生物医学文本命名实体识别(Named Entity Recognition,NER)的目的就是快速有效地从文本中提取相关实体名称。作为自然语言处理的一个重要分支,同时也是关系提取和构建知识图谱的关键子任务,命名实体识别技术具有重要的意义和价值。当前一些主流先进的命名实体识别方法在普通文本中已经能取得较好的识别性能,例如GPT(Generati
学位
学位