结合注意力机制的多模型融合长文本分类算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:sketchupbim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类一直都是信息处理领域极具价值的问题,随着大数据时代的到来,这项技术也渗透到了人们生活的方方面面。近年来,深度学习依赖对文本语义的理解能力在短文本分类问题上取得了较大的进展,但在长文本任务上的效果却不甚理想。长文本由于词数的丰富,很多场景依靠传统的词袋模型和机器学习模型进行建模已经可以取得不错且稳定的成绩,尤其是更依赖关键词特征(如新闻主题分类)的场景。因此,本文尝试在传统方法的基础上结合深度学习技术以提高模型对长文本语义的理解能力进而提升分类表现。本文通过对当前长文本分类领域的技术进行研究发现,注意力机制对解决长文本任务的长依赖问题非常有效,可以通过对长文本进行分层处理,并在各层都应用注意力机制,以提高模型对文本各层次关键语义特征的提取能力。同时,相较于卷积神经网络,循环神经网络自身结构天然适合对于长序列语义的理解,通过使用GRU(门控循环单元)等变体也可解决其梯度爆炸的问题。但由于长文本的信息过载,深度学习模型在应用时依旧有其局限性,为此,本文提出将深度学习模型中得到的句子级文本语义表示应用于传统机器学习模型,并通过与基于TF-IDF的词袋模型表示模型进行融合,综合各模型优点,提高了在长文本分类任务上的表现。最后,本文在Fin Tech数据集和达观数据集上对模型进行实验,证明了本文提出的模型在对比主流的方法是有其优势的。在长文本上的语义理解上,注意力机制和循环神经网络可使其提升明显,将句向量与传统机器学习模型结合也可有不错的效果。此外,在基学习器优秀且有足够差异的情况下,集成学习对长文本分类任务有足够的有效性。最后,本文提出的模型具有较好的泛化性能。
其他文献
鳅超科(Cobitoidea)是鲤形目(Cypriniformes)鱼类中重要的类群之一种类多,形态差异大,分布广泛。本研究以鳅超科鱼类为研究对象,对线粒体基因COI、ND4、ND5和核基因RH1、RAG1、EGR2B和RBP共7个基因的进化情况进行了分析。并以这几个基因作为分子标记,探讨了鳅超科鱼类的系统发育关系。主要研究结果如下: 1、测定了鳅超科共32个种35尾样本的基因序列,包括
学位
随着计算机科学技术的发展,图像识别技术被广泛应用在生产生活各个方面,图像识别在桥梁日常巡检养护中也可以发挥其相应的作用。通过机器学习的研究来提升图像识别技术应用的实用性和优良性,建立桥梁病害图片信息的数字化模型,实现对桥梁病害图像的自动识别,对加强桥梁的智能化管理、提升桥梁巡检养护的工作效率、提高桥梁巡检中桥梁病害定位的准确度等课题有着重大的意义。论文从基于机器学习的图像识别技术入手,对桥梁巡检过
学位
社区作为城市的基本单元,是居民共同生活的地方,社区参与是社区治理的必然要求。随着经济社会的深刻变革和发展,党的十九届五中全会提出“实现国家治理体系与治理能力现代化”,社区治理主体不再单一,多个不同的主体包括政府、社区居委会、社会组织、居民等互相合作,共同投身参与社区大建设、大发展,这已成为当前基层治理和发展的必然趋势。特别近几年,迅猛发展的草根社会组织,在社区参与中发挥着越发重要的作用。从当前佛山
学位
在全面信息化、数字化的新时代背景下,随着信息技术的快速发展和网络设施的基本普及,带来了教育教学模式的改革创新,对外汉语教学也迎来了新的机遇和挑战,“微课”教学模式应运而生。笔者基于国内对外汉语微课的建设和发展现状,以国内知名对外汉语微课平台为经典案例进行学习,对《汉语教程》(第一册)进行微课教学设计实践,并以第十五课中的一个语法点作为教学设计案例进行具体的实践分析,希望能够为初级阶段的语法微课教学
学位
本论文主要研究RN(N≥ 1)空间中带有L2-临界扰动项的分数阶Gross-Pitaevskii(FGP)泛函在广义L2-临界约束下的极小可达元问题。具体来说,考虑在空间RN上,能量eρ为广义L2-临界约束极小问题:#12其中GP能量泛函E(u)定义为:(?)其中(-△)s是分数阶拉普拉斯算子,0<q<4s/N,0<s<1,b∈R且b≠0,且势函数V(x)满足条件(V)。(V).V(x)∈Cloc
学位
随着互联网数据量和并发量的飞速增长,单机系统已经难以满足庞大的业务需求,大型互联网公司采用分布式系统架构,扩展系统拥有的硬件资源,降低并发冲击带来的风险。多副本是解决分布式单点问题和实现负载均衡的重要手段,多副本之间数据的一致性需要通过一致性协议保证,常用的分布式一致性协议Raft在保证数据一致性的同时,也降低了系统的吞吐量。Raft的性能问题在高并发、大规模集群的场景下更为突出。因此设计并实现了
学位
太阳能蒸馏器作为一种清洁、环保、便携的海水淡化技术,近年来成为研究热点。目前的研究主要集中在水蒸发、水冷凝和蒸馏器结构三方面。微/纳米技术逐渐被用于改进这三方面的性能,并取得了较大进展。但是系统性结合这些技术的太阳能蒸馏器并不多,技术实用化进程缓慢。本文旨在结合最新微/纳米技术,设计并搭建基于炭黑纳米颗粒的太阳能蒸馏器样机并研究其性能。本文首先深入研究了影响太阳能蒸馏器效率的几个关键因素,包括水蒸
学位
随着科学技术的不断进步,第三代同步辐射技术在其光源参数以及实验方法等方面得到质的提升,共振非弹性X射线散射(Resonant Inelastic X-ray Scattering,RIXS)技术也因此从理论可行实现实际应用的转变,并在诸多领域发挥其极其重要的作用,成为一种研究物质微观结构科学且有效的研究手段。国外基于RIXS探测技术的研究使用,并在诸多领域获得较大的研究成果。我国也逐渐对RIXS线
学位
近年来,我国经济水平增长稳定快速,人们的物质基础进一步得到满足,开始普遍转向对于美好生活的追求,向往更高的精神享受,旅游业在这种需求的刺激下高速增长,“美丽乡村”的政策和乡村旅游业的发展催生了乡村民宿的发展。湘黔桂地区作为国内重要的民宿聚集地,孕育了众多地域性的民宿建筑,促进了乡村旅游的发展。湘黔桂地区坐拥优质的山水和人文资源,然而民宿的质量稂莠不齐,“酒店风”、“仿古风”、“抄袭风”、“布景化”
学位
奇异点(Exceptional points,EP)是系统参数空间中两个或多个特征值及其对应特征向量同时合并的一个特异点。在物理系统中这个点处的行为与邻近的点的性质有着较大的差异。奇异点主要存在于和周围环境有能量交换的非厄米系统中。在过去的二十年中,人们对这种非厄米系统越来越感兴趣,特别是具有宇称时间反演对称的量子力学概念有关的非厄米系统。近年来,非厄米系统在光学中引起了极大的关注,随着加工工艺技
学位