基于深度学习的文本分类方法研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:yk_001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理(Natural Language Processing,NLP)的基础任务,文本分类的目标是用一个或多个类标签对文本进行标注,在信息挖掘和数据分析等领域具有重要地位。随着人工智能的快速发展,以神经网络为基础的深度学习取代了机器学习的地位,使用深度学习进行文本分类是大势所趋。构建分类效果更优的模型,并搭建操作简单、运行快速的简易NLP系统,可以帮助人们快速从海量信息中挖掘所需信息,大大提升了信息获取效率。本文以文本分类中两大基础任务主题分类和情感分析为切入点,探索文本分类算法,设计并搭建简易有效的NLP系统,在多个数据集上进行大量实验,并针对具体任务特点和相关数据缺陷等设计并改进分类模型。主要研究工作如下:(1)针对主题分类任务,提出一种基于BERT和注意力机制的主题分类模型。首先,基于层次延拓的思想,增加BERT中位置编码数量,解决其长度限制问题,在词嵌入表示中融入全部语义信息,进而提升文本表示质量;其次,使用Bi GRU网络提取文本上下文语义特征,并与自注意力机制相结合,赋予文本中关键特征更大的权重,缓解循环神经网络长距离依赖问题。最后,对交叉熵损失函数进行改进,使得困难样本在模型训练中的贡献增大,提升模型的泛化性能。在四大主题数据集上分别进行对比实验和消融实验,评价指标均优于基线模型和消融模型,证明了所提模型在主题任务上的有效性和合理性。(2)针对情感分析任务,提出一种基于文本拓展和多粒度文本表示的情感分析模型。首先,为解决原始编码特征信息较少的问题,利用LDA生成文本潜在特征信息并嵌入至文本原始编码中,增加原始文本特征信息数量,缓解情感文本数据稀疏问题;其次,从字词双通道生成词嵌入表示,充分融合语义信息;最后采用多通道卷积神经网络和循环神经网络分别提取局部特征和全局特征,提升特征信息的全面性和突出性。在四大情感数据集上分别进行对比实验和消融实验,评价指标均取得最优,证明了该模型在情感分析任务上具有一定应用价值。(3)简易NLP系统的设计和实现。在所提两大模型的基础上,从应用的角度出发,选择Django框架快速搭建NLP分类系统。模型由前端、后端两部分组成,包含词法分析、关键词提取、文本分类三大功能,并通过进一步细化分类任务保证了分类效果。整个系统功能齐全、操作简单、运行快速,具有一定的使用价值。
其他文献
伊恩·麦克尤恩的早期短篇小说常被认为以暴力、怪诞、欲望等元素追问现代社会的道德困境和共情失败。然而,在《我的紫色芳香小说》中,麦克尤恩却选择以当代英国社会的媒介景观展现自我与他人的共情危险和伦理可能。小说中媒介景观的生成不仅制衡了中产阶级知识分子的身份建构,更是体现了话语场域中的博弈。媒介景观的运行隐含着麦克尤恩对情感占位与真相空缺关系的审视与协商,人物通过共情取代了剽窃事件真相留下的空位,使真相
叶圣陶曾提到:"阅读整本书对学生阅读速度与兴趣的提升极为有利,可以使学生的阅读习惯得到培养,促进学生综合语文阅读能力增强。"现阶段,在小学高年级阅读教学中,整本书阅读教学情况仍存在诸多问题,大部分教师并未对其引起重视。由此可见,加大对小学语文教学中的整本书阅读教学策略的研究力度,具有重大意义。
高校推进劳动教育与思想政治教育协同育人,以马克思主义劳动观理论明晰劳动意义,以习近平总书记劳动论述涵养劳动情怀,以培养高素质劳动者目标确立育人方向,把劳动教育融入思想政治理论课教学构筑育人大格局,营造“沉浸式”育人氛围,拓宽“联动式”实践基地,优化要素保障,以多元评价和反馈提高育人质量。
运算法则是代数知识的核心之一,也是后续学习其他代数知识的基础.在运算法则教学过程中,尝试情境引导、重视问题驱动、突出一般方法的提炼,促进学生思考探究,感悟数学思想方法,提升“四能”,发展数学核心素养.
石家庄晋语区位于河北省中南部偏西,地处太行山东麓,辖平山、灵寿、井陉、赞皇、元氏、鹿泉六县(区)。石家庄晋语属晋语张呼片,位于晋语和冀鲁官话的过渡地带,因此方言内部存在一定差异。本文以石家庄晋语区方言为研究对象,对六县(区)共八个方言点的方言语音、词汇进行田野调查。在此基础上,不仅对石家庄晋语八个方言点的语音系统进行总结和描写,展现石家庄晋语的整体面貌;同时还对石家庄晋语内部呈现的语音、词汇差异展
目的:本研究旨在通过梳理古今中医典籍中有关证候鉴别的内容,提炼出较为系统的证候鉴别方法,并以实际临床案例展示与印证相应的证候鉴别方法,便于学习掌握。使学者临床辨证时有较为清晰可参的证候鉴别的诊断思路,避免盲目性和随意性,提高辨证诊断结论的准确性和精确性,进而为处方用药提供更加可靠的依据,促进临床辨证论治疗效的提高。方法:1.文献知识收集:梳理古今中医典籍中有关证候鉴别诊断的内容,参考《实用辨证论治
为研究斜冲击下岩石的孔隙度变化特征及其力学机制,采用一种模拟斜冲击的实验装置,对5组不同斜面角的砂岩试件进行落锤斜冲击试验。利用核磁共振仪器对冲击前后的岩石试件进行孔隙度测量及成像分析,得到试件受斜冲击前后的孔隙度、T2谱图及孔隙成像。研究结果表明:1)斜面角弱化了作用在试件上的冲击力,相同冲击力条件下,标准试件内部孔隙度较大,而斜冲击后试件内部孔隙均有不同程度减少,孔隙被压密;2)斜冲击后,斜面
<正>王维山水田园诗在历史长河中是不可忽略的,他的山水田园诗在文字、图画等方面具有独特而突出的成就,这一切都与他的佛教信仰不可分离。他的诗不仅仅单纯描绘世间大好风光,更是将禅意和佛趣以及自己的人生志向融入其中,创造出真正的"诗中有画,画中有诗"。王维是一位诗人,是一位与佛禅有着密切联系的诗人,他能以佛禅寓意通之于诗,使诗歌营造一种充满禅意的意境,他在李白和杜甫之外,自成一派,对后世影响很大,本文主
期刊
机械收获是当前中国实现玉米生产全程机械化的一个瓶颈[1],而实现籽粒的直接收获更是玉米机械收获现在及未来的发展趋势。为增加我国玉米产量,保障基本粮食需求,以前我国对玉米品种的推广普及以高产为主,而机械粒收还需要考虑玉米籽粒在含水率、破损率等多方面特性。为推动玉米机械化籽粒收获技术在吉林省中部地区的推广和发展,于2021年选取在吉林省近几年推广面积较大的9个玉米品种(郑单958、先玉335、吉单27
<正>随着新一代信息技术的快速发展和广泛应用,商业银行的发展理念、服务方式、管理模式和竞争格局都发生了深刻变化。数字化转型不再是银行业可做可不做的选择题,而成为了在激烈市场竞争中银行业取胜获优的必答题。近十年来,中国银行业掀起了一场数字化转型的大潮,数字化转型几乎成为所有银行的工作重点。
期刊