基于改进的LSTM和集成算法的文本分类研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:cloud0906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术已经被广泛地应用在内容审核、广告过滤、情感分析、文本标注和虚假信息鉴别等领域。该技术的核心在于文本特征表示,相较于传统的基于词袋模型的文本表示方法,深度学习的文本表示方法词嵌入模型不仅能够克服文本特征“维度灾难”的问题,还能够挖掘出领域专家无法发现的特征。因此,基于深度学习的文本分类技术研究成为当前自然语言处理领域研究的热点。长短期记忆网络(Long Short Term Memory Networks,LSTM)是文本分类中的主流深度学习模型,但是当前基于LSTM的文本分类方法存在信息冗余和梯度消失的问题,影响文本分类的效果。为了解决以上问题,本文在LSTM中引入注意力机制,提出了一种注意力概率的计算方法用于词向量隐状态的权重分配,并据此生成了一种新的文本特征表示进行分类,进而提出了 Attention LSTM模型和Attention Bi-LSTM模型。改进模型通过提高文本中重要单词的影响力并降低其它单词的影响力,保留文本的有效信息,提升分类效果。本文将改进模型应用到搜狐新闻、法律文书、Reuters News、IMDB影评等四个公开语料上进行实验,实验结果表明,Attention LSTM和Attention Bi-LSTM较对比模型的分类效果有一定提升,证明了模型的可行性。此外,本文还根据集成算法中多个模型共同决策优于单一模型决策的思想,针对投票模型存在的忽略基础模型分类性能优劣的问题提出解决办法。本文集成了 Attention Bi-LSTM、KNN、朴素贝叶斯、支持向量机等模型构成基础模型层,采用CART决策树作为高阶分类模型构成Bagging层,采用软投票算法构成投票层,进而提出了由基础模型层、Bagging层、投票层所构成的层次集成分类模型。该模型通过训练高阶分类模型来学习基础模型的预测结果,进而降低模型预测的误差。本文将层次集成分类模型、投票模型以及基础模型应用到搜狐新闻、法律文书、Reuters News、IMDB影评等四个公开语料上,实验结果表明,层次集成分类模型较最优基础模型Attention Bi-LSTM的分类效果有了进一步提升。
其他文献
烟粉虱Bemisia tabaci是对我国农业生产造成极大危害的入侵害虫,其抗药性的增加以及人们对环境健康的需求使得生物防治成为烟粉虱持续治理的重要途径。浅黄恩蚜小蜂Encarsia
随着战场环境信息的复杂性和多维性不断提升,搭载高精度光电探测装置的光电稳定平台被应用在各式装备系统上,用于实现对战场环境侦察、目标识别及指令跟踪等任务。差动式柔索
方柱广泛应用于各种建筑、桥梁等结构,是工程领域最为常见的柱体形式之一,由于其断面形式简单且分离点位置确定,一直是计算流体动力学的主要研究对象,方柱绕流问题也是钝体绕
篮球运动在我国较为普及,参与人数较多,上海市有着独特的篮球文化氛围,有着良好的群众基础。上海市高校普遍采用篮球选项课的形式上课,那么该课程发展情况如何?存在哪些问题?该研究是具有重要意义的。本文采用了文献资料法、访谈法、问卷调查法及数理统计法等研究方法,以上海市6所高校的篮球选项课情况及影响因素作为研究对象,从开设篮球选项课的学校情况、学生情况、教师情况、教学情况及影响因素等五个方面进行了系统的分
形状信息是物体最直观、重要的描述,其表示与识别是计算机视觉领域的基本问题。然而真实世界的形状往往存在各种变化,包括噪声、形状变形、遮挡和同类形状间的差异等。这些变化给传统基于手工特征如形状上下文、形状签名等的形状表示和识别方法带来很大的挑战。近年来,随着深度学习相关技术的突破性发展及广泛应用,利用深度网络来进行形状的表示及识别成为一个新兴研究内容。不过,在二维形状相关的应用场景中,深度网络的发展目
目前,国内的城市化进程正迅猛发展,随之城市交通的需求量也急剧增加,轨道交通正借助它自身具有的迅速、安全、便捷、环保以及运量大等特点得到了众多大中城市的青睐,而城市轨
洪范八政,食为政首,粮食安全一直是我国治国安邦的头等大事。地下仓因其具有隐蔽、坚固、防火、避光、密闭低温、占地面积少等优点而成为绿色储粮的理想仓型,但目前因为地下
复合材料蜂窝结构因具有金属结构不可比拟的优点,已愈发广泛地应用于飞机雷达罩、操纵舵面和翼肋等次承力结构处。但鉴于蜂窝结构特殊的材料特性和构造特点,其结构的性能对湿
通过图像中的对象关系检测可挖掘图像更加细粒度的特征和提供结构化的图像内容表示,增强复杂场景下图像检索的效果。本文针对图像中的对象关系提取以及将其应用在图像检索领域进行了研究,通过提取图像中对象和对象之间的特征构建视觉关系预测模型,采用知识增强的方法来处理对象关系中固有的长尾分布(Long-tailed Distribution)问题。图像检索根据三元组对象关系组成的场景图(Scene Graph)
案例推理是利用处理历史案例时的经验和方法指导新案例故障的定位,本文主要研究案例检索确定相似案例。民航发动机故障案例检索主要存在问题是:相似度计算容易陷入距离陷阱、