基于文本数据增强与混合模型的情感分析研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:gin901122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文情感分析是自然语言处理,文本挖掘任务中的一项挑战性任务,由于中文复杂的语法结构,难以设计普适性的模型和特征去处理所有情感分析任务。此外,由于中文情感分析的研究工作相对国外较晚,因此缺少完备的,高质量的实验语料。论文旨在构建有效学习多特征融合的混合神经网络模型,提高其在情感分析任务上的泛化能力,针对目前标注完善的中文数据集规模受限,深度神经网络模型易出现过拟合的问题进行探究。本文基于文本数据增强方案和混合神经网络模型对情感分析问题进行了研究。论文的主要工作如下:构建了一种面向文本的多粒度数据增强机制,从中文主观性评价文本的特点出发,本文探究了多粒度(词语级,短语级,句子级)的文本数据增强方案,并与当下热门的生成对抗网络等生成模型进行对比。实验表明本文所提出的数据增强方案能够基于原始数据集,有效的生成更大规模的文本数据供情感分析模型学习其分布式表达(DistributedRepresentation)。为探究深度神经网络模型在本文所述的数据增强方案下的效果,本文对比了卷积神经网络(Convolutional Neural Network,CNN),长短期记忆机(Long Short Term Memory,LSTM),并在此基础上构建基于CNN和LSTM的特征融合模型,该模型结合了卷积神经网络模型的局部特征抽取能力和LSTM模型在序列数据特征处理上的优势,将二者的隐含层特征进行全连接融合作为混合模型的高层特征。以实际任务的表现作为评价指标,验证了该模型的有效性。本文使用公开的酒店评价语料作为实验和研究的数据集,基于所提出的文本数据增强方案和特征层融合的混合神经网络模型进行情感分析任务的探究,实验表明本文所提出的方案和模型相对原始数据集上的基线方法和模型均有一定提升。同时,本文所提出的方法在跨数据集预测的任务上取得较好的表现,验证了数据增强方案对深度神经网络模型的泛化性能的增益效果。
其他文献
随着微机械加工、微电子以及无线传感等技术迅速发展,无线传感网络(WSN)已广泛地应用于各行各业中。低功耗、体积小的无线传感器节点是WSN的基本组成部分,通常由电化学电池供电,存在使用寿命短、需定期更换和污染环境等缺陷。因此,具备可持续、寿命长等优点的压电能量采集器作为供电元件得到广泛的研究。本文针对微型压电能量采集器结构稳定差、能量转换效率低和运行频率高等问题,提出了一种基于双晶压电厚膜的微能量采
传统目标跟踪方法中通常将目标看作点目标,忽略其形状特征,仅估计目标的运动状态。随着高分辨率传感器的广泛应用,传感器每一采样时刻能够获得目标的多个量测,此时点目标模型
移动自组织网络(MANET)组网灵活、部署方便,被广泛应用于军事通信、医疗救急、灾难恢复等众多领域中。现有关于移动自组织网络的容量研究得到的是标度律结果,反映当网络中节
研究目的:在中国真实临床坏境中探讨口服地高辛对左室射血分数降低的心力衰竭(HFr EF)患者预后的影响,以及心房颤动(房颤)与地高辛对预后可能的相互作用,并在目前指南推荐的治疗药物背景下分析地高辛与预后的关系。研究方法:入选中国住院患者心力衰竭注册研究(CN-HF)中45家医院的HFr EF患者,根据研究对象是否口服地高辛分为地高辛组和非地高辛组,描述和比较两组患者的基线临床特征,分析服用地高辛对
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战。信息消费者需要从大量信息中
国内悬索桥的跨度越来越大,主索鞍的尺寸和重量也大幅度地增加。鉴于主索鞍在使用期间内无法替换的局限性和对安全性的高要求,既往主索鞍设计得异常保守,这就与结构设计的经济性产生矛盾。因而探明主索鞍的极限承载能力,研究结构的传力路径,优化结构设计尺寸,具有重要的经济效益和工程设计参考价值。论文主要围绕上述问题,以龙潭大桥主索鞍为工程背景,采用数值模拟分析的方法进行了系统的分析研究,主要内容、方法和成果如下
中国经济进入新常态,L型运行走势还将持续,改革深层次问题在这一过程中逐渐暴露并加以解决,各类市场主体因此而面临更大挑战与更多机遇。金融改革从制度层面正在如火如荼进行
自从2005年股权分置改革以来,我国上市公司股权结构发生了很大变化,国有股比例明显降低,流通股比例显著增加,有的公司甚至达到了百分之百流通,而债务期限结构方面,短期债务融
随着社会发展父母对子女教育重视程度的不断提高,子女教育费用支出逐年攀升,教育培训产业发展空间不断扩大,大量社会资本涌入教育培训行业,使行业机构数量快速增长,导致同行业竞争程度不断加剧,在市场需求量增速有限的情况下,各教育培训机构为争夺市场资源推出大量的营销活动。乌鲁木齐新东方成立于2011年,在长期的发展过程中,公司积累了大量的优质客户,经营规模逐步扩大,市场占有率呈现出逐年增长的态势,但在严酷的
人工智能是人类科技和认知科学发展到一定阶段的产物,可以说是人类社会的一项伟大发明。作为社会的新兴存在,其在给人类带来巨大便利的同时也蕴藏着巨大的风险,这也印证了科学技术的发展对社会来说是一把双刃剑。当前人工智能时代,我们既不能只着眼于人工智能对社会的积极作用而对其风险视而不见,亦不能因噎废食,逆潮流而为。此时,法律的规范作用便体现出来了。不论在哪个时代,任何新兴存在的出现都需要法律的规制。不可否认