基于ERNIE和TextGCN的文本分类研究与实现

来源 :河南大学 | 被引量 : 0次 | 上传用户:tiankun7294
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字媒体技术的不断发展,使文本信息呈现爆发式的增长,现有传统文本阅读形式已经不能满足人们的需求,文本推荐系统应运而生,其中文本分类的准确性起到了决定性的作用。文本分类算法是基于原始文本数据中所提取出的特征进行预测文本数据类别的一种方法。然而现有文本分类算法存在无法较好的获取远距离文本之间的关联以及边界数据和异质数据等信息不能够很好地融入神经网络等多种问题,导致文本分类的准确率不够高。因此,本文对基于传统深度学习网络和图神经网络的文本分类方法展开研究,并针对两种算法网络模型进行改进,设计出基于EDA中文文本分类算法和L-Text GCN英文文本分类算法,用以提升中英文文本分类的准确率。论文的主要贡献如下:(1)为了提高中文文本在有文本语义信息欠缺和获取远距离文本关联信息较差等因素影响下文本分类的准确率,本文提出了一种基于优化ERNIE预训练模型的中文文本分类网络模型(EDA)。首先,该模型通过使用ERNIE预训练模型丰富中文文本语义信息来得到更好的文本表示形式;然后,将丰富语义后的文本信息输入到本文改进的深度等长卷积网络当中,从而能够更好地提取文本长距离之间的文本关联信息;其次,将输出的结果信息输入到具有加性的注意力机制当中,针对文本每个位置获取其相对应的权重值;最后进行文本分类。通过在数据集清华NLP组所提供的THUCNews数据集上进行实验,结果数据表明本文所提出的网络模型准确率相较于BERT模型提高了4.68%,损失率降低了0.1。(2)针对英文文本中存在的异质文本信息,本文采用图神经网络来构建文档和词、词和词之间的关联结构来获取两者之间的隐藏信息。为了使英文文本分类的结果更加准确,本文提出了一种基于优化图卷积网络的英文文本分类网络模型(L-Text GCN)。与传统的图卷积网络相比,首先,本文模型采用Mish激活函数对硬零边界数据进行一定的改善,解决了梯度消失的问题,使得文本数据中的负值信息可以更好地深入到神经网络中;其次,修改参数优化中二阶梯度的滑动平均处且删除动量的一阶梯度的滑动平均偏置校正,通过增大上一时刻的参数梯度的贡献值使得网络中历史累计梯度的比重越来越大,最终达到图卷积网络的长期记忆效果;最后,通过对多个数据集进行实验对比,本文提出的L-Text GCN模型分类结果的精确度提升了0.16%,0.78%,0.79%,0.32%。(3)论文基于上述工作,设计和开发了一款中英文新闻文本分类系统原型。通过提高中英文文本分类的精准率,将更准确的文本类别对应的新闻文本推荐给用户来提高用户在阅读新闻时候的体验感与便捷度。综上所述,通过对现有的中英文数据集进行实验,证明本文所提出的中英文文本分类网络模型具有更加精准的分类结果,同时可以将各类别新闻快速地推荐给用户,大大的提高了用户体验。
其他文献
羟基乙酸(Glycolic acid,简称GA),是脂肪族中分子结构最简单的酸,自然界中含量较少,存在于柠檬、甜菜、甘蔗等植物中,羟基乙酸及其衍生物在化工、医药、食品等方面均有广泛的用途。实验中使用高效液相色谱仪建立了一个同时检测底物乙二醇和产物羟基乙酸的方法。利用磺化的苯乙烯-二乙烯共聚物作为填充物的Bio Rad Aminex HPX-87H离子色谱柱为分析柱,配合高效液相色谱仪的示差折光检测
学位
药物的定量分析非常重要,无论是体外的药品含量的检测,还是体内药代动力学的研究。因此,本文将具有优异的导电性能的多壁碳纳米管(MWCNTs)、四氧化三铁纳米粒子(Fe3O4)和成膜性能优良的β-环糊精(CD)共修饰固定在玻碳电极(GCE)上的方法,构建一种新型电化学传感器体系用于检测芦丁(Ru)。采用透射电子显微镜法,对该体系材料进行表征结果显示:MWCNTs、Fe3O4和CD形成了功能化纳米复合材
学位
金银花是忍冬科忍冬属植物忍冬干燥的花蕾,具有解热、抗炎、抗菌、抗病毒、免疫调节、降血脂和抗氧化等生理功能,是典型的药食同源型植物,具有重要的食品开发价值。本研究基于质谱技术研究了混合菌种发酵对金银花浸提液的抗氧化性能、功能性组分及挥发性物质的影响,期望能够为功能型金银花发酵饮品的开发提供参考和理论依据。主要研究内容如下:(1)使用离子阱质谱对金银花原材料进行筛选,以绿原酸质谱峰强度为指标,选择绿原
学位
作为党中央机关报,《人民日报》从新闻舆论视角记载了各行各业的发展,在重大历史节点刊发了很多重要文章,推动和引领了社会前进的方向。档案作为一项基础工作,担负着“为党管档、为国守史、为民服务”的重要职责。档案工作的成长历程在《人民日报》宣传报道的历史长河中数次出现,可以说,《人民日报》见证了档案事业的发展。
期刊
阿尔茨海默症(Alzheimer’s disease,AD)是一种最常见的神经退行性疾病,严重威胁着人类健康。该疾病的主要病理特征是β-淀粉样蛋白(Amyloidβ-protein,Aβ)的细胞外过度聚集,引起线粒体功能障碍、氧化应激和神经元死亡,从而造成认知障碍等一系列行为学病变。β-淀粉样蛋白和氧化应激可作为该疾病的重要治疗靶点。但目前基于Aβ检测和抑制的临床诊疗实验绝大部分以失败告终,一方面
学位
石油基塑料的不可生物降解性对环境造成了严重的负面影响,利用可生物降解的聚合物作为食品包装和医用伤口敷料的研究趋势愈发强烈。新型食品包装材料不仅要在机械和物理特性方面有所提高,还要求改良其抗氧化活性等性能。柑橘类水果加工行业产生大量果皮残渣,随意丢弃或处理不当的话将造成严重的生态问题。而柑橘皮富含多酚类等大量的生物活性物质,具有良好的抗菌和抗氧化作用。本试验以柑橘皮粉末为基质,将具有高聚合度、高结晶
学位
脱落酸(Abscisic Acid,ABA)作为一种植物体内重要的激素;与动物的一些疾病,炎症反应等疾病也有联系。明晰脱落酸ABA在小鼠脑中的结合受体:羊毛硫氨酸合成酶C样蛋白LANCL2,过氧化物酶体增殖物激活受体PPARγ及其脑区分布;探究ABA对帕金森病自噬和凋亡标志物的影响。研究目的本研究将会通过构建帕金森小鼠动物模型,明晰脱落酸ABA在小鼠脑中的结合受体:羊毛硫氨酸合成酶C样蛋白LANC
学位
目标跟踪任务是计算机视觉一个重要的研究方向,在自动驾驶、辅助机器人和视频监控等领域有广泛应用。长时目标跟踪任务具有目标外观变化、目标消失等复杂场景属性,如何在保证模型不退化的前提下,利用自适应机制在线更新建模以适应目标外观变化,是该任务的一个难点问题。本文首先对长时目标跟踪的发展历史和研究现状进行了有关介绍,并对一些经典的自适应机制进行了详细地分析。随后针对现有自适应机制无法同时引入分类任务、回归
学位
图像隐写作为信息隐藏的重要方法,其主要思想是将信息以隐蔽的方式嵌入到图像中并且不改变图像本身特性,受到信息安全领域的广泛关注。传统图像隐写算法的设计需要依赖研究人员深厚的先验知识,给算法设计及应用带来诸多困难。深度学习的出现打破了这一壁垒,研究人员将深度学习与图像隐写相结合,推动图像隐写研究取得了飞速发展。然而,现有的图像隐写模型仍存在生成图像质量较差、透明性不足、信息提取准确率较低和抗噪声攻击能
学位
《普通高中生物学课程标准(2017年版2020年修订)》(简称《新课标》)明确提出:“生物学课程要以核心素养为宗旨,生物学学科核心素养包括生命观念、科学思维、科学探究、社会责任四个维度”。在这几个核心素养中,能促进学生应用与升华知识的是生命观念。结构与功能观是一项基本的生命观念,它的培养有利于学生看到生命系统与内外部世界联系的本质。支架式教学是教师基于学生的最近发展区搭建概念框架的基础上,利用支架
学位