基于特征表示及密集门控循环卷积网络的短文本分类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zl52182
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络与网购平台的迅猛发展,电子文本广泛存在,其所占比例较高是短文本数据,例如新闻标题、Twitter文本以及网购评论等。面向短文本进行准确分类所蕴含的商业价值和实际应用已广泛引起了学术界的关注。目前,短文本分类已成功应用于个性化推荐、情感分析、舆情跟踪以及问答选择等多个领域。最近,深度学习技术的快速崛起推动了文本分类的研究与发展。在分类器性能方面,深度神经网络比机器学习算法更优越,其随着网络深度的增加,可以提取文本更高阶特征,从而促进分类性能的提升,但在训练更深层网络时容易出现梯度消失和梯度爆炸等问题。另一方面,由于短文的稀疏性和歧义性也会影响其分类性能,因而针对以上情况,本文分别从分类模型与文本特征表示两个方面,进行了以下研究:(1)针对循环神经网络与卷积神经网络的关于文本序列建模的优劣性,以及更深层次的网络容易产生梯度消失或梯度爆炸缺陷性,本文提出了基于密集连接门控循环卷积网络的混合模型(DC-BiGRU_CNN)。该模型首先用一个标准的卷积神经网络训练出字符级词向量,然后将其与词级词向量进行拼接并作为网络输入层。受密集连接卷积网络的启发,在对文本进行高级语义建模阶段时,采用文中提出的密集连接双向门控循环单元,其可以弥补梯度消失或梯度爆炸的缺陷,并且加强了每一层特征之间的传递,实现了特征复用;对前面提取的深层高级语义表示进行卷积和池化操作以获得最终的语义特征表示,再将其输入到softmax层,实现对文本的分类。在多个公开数据集上的研究结果表明,DC-BiGRU_CNN模型在执行文本分类任务时准确率有显著提升。此外,通过实验分析了模型的不同部件对性能提升的作用,研究了句子的最大长度值、网络的层数、卷积核的大小等参数对模型效果的影响。(2)针对短文本歧义性与稀疏性的问题,本文基于多粒度角度出发,提出了融合Bert与BTM特征表示的短文本分类方法。首先使用Bert预训练语言模型生成的动态词向量,同时基于BTM模型进行转换得到词的主题向量。随后将Bert向量与词的主题向量词向量进行融合,使得文本具备词语级与主题级两个粒度层次的抽象语义表示。然后基于DC-BiGRU_CNN深度学习模型下进行语义建模和分类,实验结果表明,融合的特征表示可以丰富文本的语义信息,能够有效提高文本分类效果。此外,通过实验分析了最大池化与平均池化对性能提升的作用,研究了主题数的设置对模型效果的影响。
其他文献
本文,我们应用时间分数阶相场模型来描述两种不可混溶的混合流,以此来解释在自然界中普遍存在的一些反常扩散现象。我们主要研究时间分数阶Allen-Cahn和Cahn-Hilliard这两类
随着互联网+、大数据等信息现代化的到来,信息数据超载(Data Overload,DO)现象已成为亟待解决的问题。推荐技术(Recommended Technology,RT)是目前有效缓解此类现象的方法之
铸锭冷却凝固过程中的界面传热非常复杂,铸模-铸锭界面上的界面换热系数是影响凝固过程的核心参数,它受到浇注温度、铸模预热温度、铸锭热物性参数和铸锭形状等多方面因素的
在过去的十年中,包括Ia型超新星(SNIa)、宇宙微波背景辐射(CMB)的温度和极化各向异性功率谱、重子声学振荡(BAO)和弱引力透镜(Weak Lensing)等在内的多种观测都表明,目前的宇
近年来的研究表明,除了原子在材料中的构成和排列外,维度在决定它们的基础性质上也起着关键的作用。这一点可从过去几年对石墨烯的研究中可以看出,它展现了出了不同于体材料的光、电性质,如:具有高的导电性和导热性。随着石墨烯的快速发展以及制备超薄层方法的日益成熟,引起了人们对二维材料(TM)的广范研究和探索。二维材料具有表面原子利用率高,能带结构易调控,可进行表面化学修饰等特点,因此具有重要的科研价值和广泛
随着网络的发展,信用卡支付已经成为一种流行的支付方式。然而,信用卡诈骗事件呈上升趋势,在世界范围内造成了巨大的损失。在风险防控领域,虽然传统的基于规则的风控系统还大
金属有机化学是有机化学和无机化学交叉的一门学科。经过多年发展,成为现代合成化学的重要组成部分。Sonogashira偶联反应由Pd/Cu催化体系共同催化的末端炔与芳(烯)基的卤化
市场监督管理信息化是市场监督管理工作的依托,是现代科学技术在市场监督管理工作中具体应用,是市场监督管理工作先进生产力的代表。通过对市场监督管理信息化建设的成就和经验进行归纳总结,研究其发展规律,探讨蓬莱市市场监督管理信息化建设对市场监督管理工作的意义,并分析当前影响蓬莱市市场监督管理信息化建设的障碍和矛盾,对其建设中所出现的问题提出有针对性的对策及科学、合理的建议,实现市场监管数据采集、储存、运用
随着美国页岩革命的成功,世界也越来越重视页岩气的勘探与开发工作,目前页岩气的增产方式主要是水平井体积压裂技术。由于页岩存在典型的层理特征,因此在水力压裂时要充分考
具有CHA拓扑结构的SAPO-34分子筛,由于其规整的孔道结构、较大的比表面积和吸附能力、以及较高的热稳定性和水热稳定性的优点,广泛应用在催化、吸附、离子交换、分离等领域。