基于神经网络和自注意力机制的文本表示与分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:XP19830828
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网时代,信息的爆炸性增长,促使人们越来越重视海量文本数据的潜在价值。利用或改良现有的人工智能技术,进而从海量文本数据中挖掘潜藏的信息,是当前自然语言处理领域的研究重点和难点。文本分类研究涉及自然文本内容理解和模式分类等若干问题,训练性能卓越的文本表示方法是实现文本分类任务的前提。从独热编码到分布式表示,再到神经网络预训练语言模型,文本表示方法获得了长足的发展,为大量实际自然语言处理任务奠定了坚实的基础。但是,以循环神经网络RNN(Recurrent Neural Network)为核心的文本表示模型通常是一种有偏模型,其捕获的语义信息不平衡,并且不能并行计算;以卷积神经网络CNN(Convolution Neural Network)为核心的文本表示模型虽可并行计算,但却不能捕获单词间的长距离依赖关系;近期热门的神经网络预训练语言模型不仅考虑文章整体上下文环境,而且可以解决当前文本表示模型特征抽取能力不强、无法学习大量无监督数据中包含的语言学知识等问题,如Google提出的BERT模型。但预训练语言模型同样存在参数量太大,预训练耗时较长等问题。因此,为了更好的完成文本分类任务,本文立足于当前存在的问题,开展了相关文本表示模型的研究,并在此基础上建立文本分类模型。本文的工作主要有以下三个方面:(1)针对传统文本表示与分类模型文本特征提取不充分、缺乏类别信息等问题,本文提出一种基于融合特征和多通道CNN的文本表示与分类模型LTCW_CNN。首先,本文提出了类别概率方差CTF-IDF算法,引入文本的类别概率信息,丰富文本的特征表示,弥补了传统TF-IDF算法无法提取类别信息的问题。其次,本文进一步提出一种具有类别和词频信息的词嵌入模型CT_Word2vec,模型利用CTF-IDF算法计算单词权重,对Word2vec向量化后的词向量进行加权。然后,本文集成CT_Word2vec,TF-IDF_VSM和LSI等单文本表示模型构建出新的文本表示模型LTCW。最后,将LTCW模型提取的文本向量表示通过多通道CNN充分提取文本特征并进行分类预测,在复旦新闻文本和网易新闻两个数据集上进行实验分析。实验结果表明,LTCW_CNN模型比基线模型性能更优,F1值分别达到了97.01%和96.28%。(2)针对BERT模型预训练方法不能充分考虑词间和句间信息等问题,本文提出了一种基于连续遮蔽词和上下句预测任务的PreBERT模型。首先,本文提出了基于CoMASK方法的连续遮蔽语言模型(CMLM)。CMLM以一定比例遮蔽随机挑选的字及其相邻字,改进了BERT只能随机遮蔽单个字而忽略字间连续性和依赖性信息的问题,可以更充分的学习字和词的语义信息。其次,本文改进BERT的单向下一句预测任务为上下句预测任务(ANSP)。ANSP考虑句子的上下文信息,能够更加充分地提取句子对之间的相关信息。PreBERT通过集成改进的CMLM和ANSP预训练任务,在单句子分类和句子对分类任务上都取得了更优的效果。在复旦新闻文本数据集、网易新闻数据集、BQ数据集和LCQMC数据集上同比BERT基础模型准确率分别提高了0.22%、0.16%、2.17%和1.27%。(3)针对BERT等预训练语言模型缺少元素对间时序和依赖关系、模型参数量大、结构调整困难、预训练耗时较长等问题,本文受多头自注意力机制启发,提出一种基于相对位置嵌入和多层多头自注意力机制的文本表示与分类模型PMSAN。PMSAN的多层多头模型结构可以多尺度获取句子内部的语义信息,相对位置嵌入可以在计算多头注意力参数矩阵时加入特征词对的信息。与传统位置嵌入方法相比,该方法引入了时序信息,同时相比传统预训练语言模型拥有更少的参数。实验结果表明,PMSAN在十个中英文权威数据集上以较小的代价取得了更好的效果。在八个英文数据集上分别取得了49.1%、84.1%、84.0%、61.9%、69.5、72.5%、93.2%和98.2%的准确率,在两个中文数据集上分别取得了98.4%和97.3%的准确率。实验结果证明PMSAN模型的语义解释性更强,效率更高。
其他文献
近年来,随着网购行业的迅猛发展以及智慧物流的应用,移动机器人行业随之发展。据不完全统计,截至2018年国内生产移动机器人的企业超过120万家。机器人在各个邻域的广泛应用,
近年来,微型扑翼飞行器以其结构紧凑、机动性强、能量利用率高等优点成为学者们的研究热点。半转机构作为扑翼飞行器的驱动机构具备良好的运动性能和气动性能,但是传统形式的
环境污染是目前严重影响人类健康的重大问题之一。酚类物质和微生物是废水中的两类主要污染物质。去除此两类物质能够显著改善水质,达到净化废水的目的。银纳米粒子是一种典型的无机纳米材料,由于制备简单,价格低廉,受到人们广泛关注。银纳米粒子不仅有优异的催化活性,能催化降解酚类物质,而且具有极强的抗菌性能,能够抑制多种微生物的生长。因此,银纳米粒子已经广泛用作废水净化材料。然而尽管银纳米粒子合成简单,但其尺寸
目前,为了满足高层建筑、高塔、大型桥梁等工程承载需求,桩基础成为当今土木工程建设中应用范围最广的基础形式之一。基于绿色环保的理念,新型桩的开发已成为桩基工程研究的
过氧化氢在工业生产中具有广泛的应用,同时其作为葡萄糖氧化酶等蛋白酶的中间产物,在机体生理反应中扮演着重要的角色;但过量的过氧化氢会严重影响生态环境,也会降低食品的营
目的本研究拟应用两种不同尺寸Fe3O4纳米颗粒的T1-T2双模态MRI对比剂Fe3O4@DOPA(Gd-DTPA)NPs和Fe3O4@PEI(Gd-DTPA)NPs以及肽受体靶向荧光分子探针DCM-KPV分别通过MR及荧光成像评
本文主要研究做市商在多种不同结构信息观察下的连续内部交易模型及相关的几何布朗运动滤波问题。讨论了一些连续内部交易模型的线性均衡的存在唯一性,以及相关金融意义和数
磁流变液作为21世纪的一种新兴智能材料,极具发展前景和应用价值。磁流变减震装置利用了磁流变液的屈服剪切应力可以随着磁场的变化而变化的特性,实现对振动的抑制。磁流变减
深度学习在计算机视觉上的成功应用,使得现在很多方法将深度学习应用在恶劣天气复原任务上,比如说去雨,去雾,去雪,去沙尘等任务。然而目前几乎所有的算法都只能对某一种特定
随着经济全球化、文化多元化和政治多极化的不断发展,各种社会思想交织错杂,必然导致人们的思想受到不同程度的影响。从国际上来看,为谋求发展,国与国之间更强调如何实现经济