基于集成学习与深度学习的文本情感分析研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:wpsl5168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与壮大,越来越多的人在互联网上发表自己的观点,例如电影评论、电商评论、社会热点评论等。互联网上的这些文本具有极高的价值,如何挖掘文本中蕴藏的情感倾向已经成为了研究热点。传统的基于情感词典的方法已经无法适用于海量数据,机器学习方法的效果过于依赖人工设计的特征,因此本文将研究深度学习方法在情感分析任务中的效果。本文从网络中的公共数据集选取了两个不同类别的中文文本数据集。首先,对两个数据集进行了预处理并训练了对应的词向量。其次,使用了三种不同的深度学习模型,验证了使用预训练的词向量可以提升情感分析的效果。然后,针对模型单一的问题,提出了融入注意力机制的Bi GRU-CNN模型,设置了对比实验,并分析了实验效果不足的原因。最后,针对使用复杂模型并没有提升情感分析效果的问题,将集成学习引入深度学习之中,提出了基于bagging的CNN神经网络模型、基于bagging的LSTM模型和基于bagging的GRU模型,并设置了对比实验,验证了基于bagging的深度学习模型可以有效地提升情感分析的效果。根据实验结果可以得出,基于bagging的深度学习模型能够有效地提升文本情感分析的准确率。本文提出的基于bagging的CNN神经网络模型、基于bagging的LSTM模型和基于bagging的GRU模型在豆瓣影评数据集上的acc达到了95.24%、97.25%和97.45%,在Amazon商品评论数据集上的acc达到了94.92%、95.44%和95.72%,相比其他传统模型表现更好,从而验证了本文提出模型的有效性。
其他文献
DNA是由脱氧核苷酸组成的一种生物大分子,它通过氢键、范德华力、疏水作用以及静电等非共价相互作用和不同目标分子形成不同的高级结构。同时DNA也是一种性能卓越的生物材料,在构建生物传感器中有许多独特的优势,如结构简单和设计结果可预测、易于化学修饰和合成等。DNA分子机器作为一种新兴的纳米技术能够响应外部信号刺激而产生类似于机器的运动并且实现信号的放大,已被广泛应用于生物传感器的设计中。癌症是医学中常
疏勒河中下游地区位于河西走廊西部。该地区新石器时代至早期铁器时代人类活动经历了西城驿文化、四坝文化、骟马文化三个时期。本文系统梳理了此三支考古学文化的研究简史、典型遗址、分布范围、分期和年代以及文化面貌等。本文认为史前时期该地区环境变化与人类活动的影响是相互的。西城驿文化和四坝文化时期,气候日趋干冷,人群迫于生产压力,发展麦类/粟黍-畜牧业的混合经济,并从事青铜冶炼业。骟马文化时期气候一度湿润,草
稀疏约束模型是近年来的热点研究方向之一,主要被应用在机器学习和模式识别的领域,如人脸识别、目标追踪、高频遥感影像分类等。从相关的研究中可以得出稀疏约束的两大优势:提高模型的鲁棒性和提取高维数据的有效分类特征。为了提高稀疏约束的迭代效率,研究者们提出了新颖的基于协同约束的模型。协同约束模型在保留原有优势的基础上,大幅度地提升了计算速度,并且在人脸识别应用中取得了令人满意的结果。在实际应用中,人脸识别
在人类思想理论的历史卷轴中,马克思主义的出现是浓墨重彩的一笔。马克思的理论思想是被一次又一次的现实问题千锤百炼,被实践多次检视过的真理,是帮助人类对世界进行认知过程和改造过程的重要武器。在完整且成体系的马克思主义理论大框架中,拜物教批判理论具备不可替代的理论与现实意义。马克思对原始拜物教的研究及对资本主义社会中的拜物教现象的批判,是其提出剩余价值论从而揭示资本主义虚假面具的来源,拜物教批判理论由此
信道均衡作为一种用于数字通信系统中的抗衰落技术,被广泛应用在现代通信中。自适应均衡技术通常需要发送训练序列用以训练均衡器抽头系数,造成了一定的资源浪费。因此,不需要发送训练序列的盲均衡技术逐渐受到研究人员的青睐。近年来,随着机器学习(Machine Learning,ML)的蓬勃发展,基于机器学习理论的盲均衡方法得到了普遍的关注。在现有基于机器学习理论的盲均衡方法中,支持向量回归(Support
近些年来,随着科学技术的发展,人类逐步进入大数据时代。所产生的的数据量每年以指数级增长,大量的数据对于人类的发展也起到了十分重要的作用。数据量的不断增加导致从数据中提取到的特征的数量也在增加,如何有效利用与处理数量如此庞大的特征数据既是机遇也是挑战。特征选择是一种很常见的用于除去冗余与无效的特征的方法。但是一些常见的特征选择方法通常会有一些缺点,例如基于Filter特征选择算法得到的特征子集在使用
肺部疾病是医学研究的一个重要领域。无论是2020年在全球爆发的新型冠状病毒肺炎(COVID-19)疫情,还是2003年的非典型肺炎(SARS),都是病毒感染肺部引发的疾病。当前,对多种肺部疾病的研究关注于肺部血管的变化情况,如肺动脉高压、血管性病变、动静脉畸形等。为了能够早发现、早治疗,在早期诊断中通常会使用计算机辅助诊断(Computer Aided Diagnosis,CAD)技术,而快速精确
异常检测是寻找或识别异常值(与数据集中正常模式不一致的值)的方法或过程,具有十分广泛的实际背景和巨大的现实应用潜力。例如,发现异常驾驶车辆对交通系统的正常运行起到辅助作用、异常股票交易识别有利于股市的健康发展、桥梁裂缝异常检测对工程安全起到关键作用、异常网络入侵识别保证用户安全隐私等。由于问题的重要性,异常检测受到越来越多的关注。目前,异常检测中一些常见算法如2、孤立森林、LOF、神经网络重构等算
随着微电子技术的不断发展,在芯片的设计规模日益增大的情况下,协调并实现数据在芯片内部计算单元之间的快速传输,是芯片性能继续提升的保证。片上网络主要用于传输数据,而网络路由算法则用于通过控制网络来协调数据在计算单元之间传输。在众多片上网络结构中,Crossbar网络是一种传输速度快、并行度高的网络结构,被广泛地应用于连接多核以及网络互联等领域中。然而,采用同步电路实现的Crossbar网络,随着芯片
随着互联网技术的发展,国民经济、信息化水平的提高,在线教育服务行业也保持着高速增长的发展态势。用户对在线教育也提出了新的需要,在线教育正朝着个性化的方向发展。知识追踪模型是使用人工智能方法实现在线教育个性化的有效手段之一,它能够对学生学习状况进行准确诊断,并根据不同学生的特点进行个性化导学,为教师与学生带来便利,有效地提升在线教育的效率。然而目前的知识追踪模型,仍然存在一些问题:(1)模型预测结果