基于深度学习的粤语文本情感分类研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:cznay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断发展,文本信息在互联网中的数量急剧增加,方式更加多样化。商业、政府及社会组织为了了解大众的喜好、社会舆论的方向,对文本内容进行情感分类迫在眉睫。文本情感分类即通过计算机将文本数据分为正面、负面两种类别,通过类别判断人的情感倾向,继而了解人们对某事物的看法。考虑到全球粤语的使用群体比较庞大,了解粤语使用地区民众情感倾向有着重大的意义。目前中文简体文本和英文文本的情感分类已经具有相对较成熟的技术和方法,但尚未有关于粤语文本情感分类的研究成果,所以很有必要对粤语文本情感倾向进行研究。粤语文本中的文字组成比较复杂,且情感类型多变,受到繁体字、变体字、粤语特有的语气词以及粤语语序语法等的干扰,导致常见的方法具有一定的局限性,无法做到很好的对粤语文本进行情感分类,所以本文着重对粤语文本情感分类方法进行研究。本文研究了传统机器学习方法中以支持向量机为基础的粤语文本情感分类模型,采用卡方检验从文本中提取词特征,期望通过训练数据集得到能够将粤语文本有效分类的模型,但从最终实验结果看出该方法分类效果不太理想,本文详细的分析了具体原因,并提出改进方案,采用深度学习方法解决该任务。本文研究了Text CNN模型,通过Text CNN模型解决粤语文本情感分类问题,尽管实验结果相较于传统机器学习方法而言有明显提升,但仍达不到期望效果。本文总结了该方法的优缺点,拟采用基于预训练BERT模型去完成粤语文本情感分类任务。本文对BERT模型的输入预处理和由预训练与Fine-Tuning模式组成的两阶段训练方法进行了深入理解;对BERT模型的Transformer架构进行了研究;同时对Transformer架构中核心的编解码器部分采用的多头自注意力机制进行了深入探究。为了使粤语文本情感分类效果达到最优,本文对BERT模型进行了改进。首先为解决BERT-2中出现的粤语未登录字的问题,设计了基于词典变化的粤语文本预训练模型参数自适应方法;其次设计了对某一特定领域采用基于统一预训练模型的粤语文本表示构建方法,构建了基于三阶段预训练BERT模型(BERT-3)的粤语文本分类方法,通过两次迁移学习完成粤语文本情感分类任务;最后提出了基于粤语辅助句子对结构的BERT粤语文本下游任务输入表示方法,通过构造粤语辅助语句将情感分类任务转换为二值化句子对任务,从而解决粤语文本训练数据有限和任务感知问题。在实验阶段,本文对设计的六种粤语文本情感分类模型使用音乐评论、电影影评、食物评论三个领域的粤语文本数据集进行了对比分析,结果表明本文改进的三阶段预训练BERT模型(BERT-3)与基于粤语辅助句子对结构的BERT-3-AA和BERT-3-APA粤语文本分类模型相较于原生的两阶段BERT模型(BERT-2)在分类结果评价指标上有一定的提高。BERT-3-AA和BERT-3-APA准确率最高91.3%,F值最高为91.0%,BERT-3准确率最高为89.6%,F值最高为89.0%;BERT-3-AA和BERT-3-APA模型在BERT-3模型的基础上准确率提高为1.7%左右,F值提高为2.0%左右。此外,BERT-3-AA和BERT-3-APA在不同的数据集上分类效果各有优劣。
其他文献
近些年,由于浮游植物水华暴发而引发的环境问题已经严重影响经济发展,甚至对人类的健康造成了一定的威胁,进而使得浮游植物种群增长控制策略研究备受关注。为此,基于种群动力
脂肪醇型破乳剂生产工艺成熟,破乳脱水效果和广谱性好,是目前我国油田生产中使用量最大的一类破乳剂,但是随着油田开采进入高含水期,为了提高原油采收率,在三次采油过程中向油井中添加大量强碱、聚合物等物质,增加了原油破乳脱水的困难,现有脂肪醇型破乳剂已不能满足生产需求,因而,为了满足石油工业的发展,提高原油采出液分离效率,需要制备新型破乳剂。本文以脂肪醇型破乳剂为基础物,首先丙烯酸进行聚合反应,随后使聚丙
在现代生活中,“道德绑架”这一行为经常出现在我们的视野里,“逼捐”等道德绑架事件的讨论程度也较高。和一般意义的道德绑架相比,家庭,作为社会的一个基本单元,其中发生的道德绑架行为以及行为背后的家庭伦理观念冲突也值得我们深思与探究。不可否认的是,于家庭这个普遍而特殊的环境下,道德绑架的危害是隐蔽而深远、值得关注的。从理论和概念上来说,家庭环境中的道德绑架的定义和一般意义上的道德绑架并无大的不同,均是指
气体污染是制约社会经济发展,危害人体健康及破坏大气环境的重要原因,得到了人们越来越多的关注。尤其是对工业排放有机气体污染物(VOCs)的排放限制及其二次污染物进行了严格的限制。目前,碳基吸附剂的吸附性能和循环再生性能是制约VOCs治理效果的重要因素。基于此,本文创新的采用溶胶凝胶法在多壁碳纳米管(MWCNTs)上负载二氧化硅(SiO_2),开发出一种新型碳硅基吸附剂(MWCNTs-SiO_2)。采
目的:探讨急性脑卒中(AIS)患者发生卒中相关性肺炎(SAP)的危险因素,从而为临床工作中SAP防治、制定合理的控制方案提供参考和依据。方法:收集2015年1月~2017年1月的2年时间里,在我皖南医学院弋矶山医院神经内外科、呼吸内科、ICU及EICU住院的98例脑卒中患者为研究对象,根据是否发生SAP分为SAP组和非SAP组。同时收集两组不同患者的一般资料(既往史、年龄、基础疾病、性别等)、检验
完善且高效的薪酬契约模型往往是降低企业所有者与企业管理者之间委托代理成本的关键,可以使得企业所有者和管理者为实现企业价值最大化而共同努力。近年来,随着经济的飞速发展,市场化程度的不断深入,我国上市公司已初步建立起较为合理的绩效薪酬制度。在此方面的研究中,大部分国内学者通过自己的研究证明了我国的高管薪酬与企业业绩存在一定的敏感性,并且也有学者通过更深入的研究发现,这种高管薪酬与企业业绩的敏感性并不是
农村集体土地征收增值利益分配问题是中国城乡发展中切实关系到广大农民利益的焦点问题。在近年来我国城镇化进程不断加速,城市用地窘迫的现实背景下,农村土地特别是近郊农村土地由于其低廉的征收价格、良好的区位优势成为政府解决城市用地困境的“一方良药”,这是符合客观经济规律的结果,但是也加剧了我国人地矛盾的凸显。在我国目前土地管理体制下,农村集体土地的流转的方式、模式仍然受到社会各界的争议和讨论。为了提出解决
随着近几年超高强铝合金在汽车、航空航天等方面的应用越来越多,以及在使用过程中也会面临复杂的环境变化,超高强铝合金的性能要求也在不断提高,即要求需要优良的力学性能,也要求具备较好的导热性能。本实验希望制备出导热性能与力学性能兼备的一种新的超高强铝合金,来满足发展需求。本实验采用光学显微镜(OM)、X射线衍射仪(XRD)、扫描电子显微镜(SEM)、能谱分析仪(EDS)、万能实验拉伸机、硬度计和导热仪等
沪港通和深港通项目的实施是中国金融市场“自由化”过程中至关重要的一步,对亚洲股市一体化有重要意义。然而,中国股市是拥有过度投机特点的新兴金融市场,不仅受到投资者追涨杀跌行为的影响,而且在“羊群效应”效应的冲击下经常出现股价极端变化的事件。最近几年,沪港通和深港通进一步加强了中国股市与亚洲股市的联系。因此在这新背景下,研究中国股市对亚洲股市的极端风险溢出效应就显得尤为必要。本文主要的工作和创新体现在
等效源方法利用了拉普拉斯方程第一类边值问题解的唯一性,可以一站式的解决重力异常转换问题。然而,由于实测数据总是有限、离散而且包含误差的,因此等效源并不能在严格意义上等效于实测重力异常的场源。基于这一认识,本文首先探讨了等效源重力异常转换的可靠性。模型试验表明:当重力异常中包含明显的区域场成分时,常规的等效源设置方式将会导致:1)等效源数量过多,点对点的设置方式存在一定的盲目性;2)异常转换结果对等