基于Stacking框架弱监督深度学习情感分析研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户：y5603179

【摘要】

：

随着互联网的快速发展,互联网社会化媒体已成为人们获取信息、陈述观点、表达情绪和情感的主要平台。这些情感与观点往往蕴含了大量有价值的信息,对社会政治经济发展等各个方

【作者】

：

李维康

【出处】

：

西南财经大学

【发表日期】

：

2004年期

【关键词】

：

情感分析弱监督 Stacking框架机器学习深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展,互联网社会化媒体已成为人们获取信息、陈述观点、表达情绪和情感的主要平台。这些情感与观点往往蕴含了大量有价值的信息,对社会政治经济发展等各个方面都有着潜移默化的影响。如何研究并利用这些情感信息有着十分重要的意义。目前主流的情感分析研究方法包括情感词典结合句法规则和利用机器学习或深度学习方法构造情感分析模型等。词典法依赖于情感词典的构建,对新词、不规范词汇和变形词要做到及时吸收,存在词典更新要求高且精度不足等问题。利用机器学习与深度学习的情感分析依赖于模型的构建与特征的选取,在模型训练时需要提供有效的训练库,传统的监督学习算法都需要对数据进行标记,但随着时代的发展,大量的无标记数据的出现使得标记成本越来越高,在处理海量数据时其标记代价几乎不可接受。针对这种问题,本文提出尝试使用弱监督的思路,在少量标记的情况下通过使用预训练好的模型对无标记数据进行预测,然后将预测结果作为训练数据再次输入模型进行训练,不断提高模型的情感分类性能,以此解决标记代价高,训练库数据量不足的问题。鉴于目前主流的机器学习与深度学习情感分析算法都有其主要擅长的领域而同时也均存在自身的短板,如朴素贝叶斯分类模型算法简单时间空间开销小,但无法学习到样本属性之间的关联。支持向量机主要擅长解决二元分类模式识别问题。长短时记忆网络在分析序列数据时有着很好的性能表现,但是在以并行的方式提取情感特征方面其表现并不理想。卷积神经网络具有很强的结构特征捕捉能力,但是无法找到序列之间的相互联系等。针对此问题,本文提出通过使用集成学习中的Stacking框架,将各类机器学习与深度学习算法进行组合,结合弱监督思路方法,以达到在少量标记训练库不足的情况下,充分发挥各分类模型的优势,弥补自身短板,从而在整体上提升情感分析性能的目标。本文研究的主要贡献有以下三个:(1)针对情感训练库不足,海量数据标记成本过高的问题,提出使用弱监督思路方法,在少量标记的情况下不断提高模型的情感分类性能。(2)针对主流机器学习与深度学习情感分析模型各自存在的优势与不足,使用单个分类器模型性能上升瓶颈的问题,提出使用集成学习中的Stacking框架,将不同模型进行组合,并结合弱监督方法,在训练库不足的情况下进一步提升情感分析模型性能。(3)本文将研究的基于Stacking框架弱监督深度学习情感分析模型的相关代码与数据作为开源项目发布在GitHub平台,供相关领域研究者进一步对情感分析技术进行探索研究。

其他文献

西北5省区“生态环境——经济发展——城镇化”耦合协调发展及预测分析

[目的]探讨“生态环境—经济发展—城镇化”三维系统(以下简称“EEU”系统)协调发展关系,以期为推动三者全面协调发展提供参考。[方法]文章以西北5省区为例,在构建EEU系统评

期刊

EEU系统协调发展时空演化灰色预测西北5省区

建筑现象学视角下福州宗祠更新改造设计研究

在乡村快速发展的时代战略背景的指引下,传统村落中的建筑样式、风俗习性也都面临着新的威胁和考验,而福州宗祠建筑作为传统村落的核心建筑在福州传统文化中具有独特的涵义。

学位

建筑现象学场所知觉福州宗祠

云南烤烟复烤烟片B2F加料陈化研究

研究了自然陈化过程中加料和未加料云南复烤烟片B2F香味成分(中性、酸性和碱性)、pH值以及感官质量的变化.结果表明:与未加料的样品相比,加料陈化改变了B2F醇类成分和酯类成

期刊

复烤烟片加料陈化香味成分PH气相色谱感官质量Cased strips Aging Aroma constituent pH GC Smoking q

采用模糊聚类法辅助鉴别烟用香精的品质

采用毛细管气相色谱法(GC)、气相色谱/质谱联用法(GC/MS)对6种烟用栗子香精进行了定性、定量分析,筛选出10种共有组分.运用模糊聚类分析(FCA)技术,对香精中这10种组份的含量

期刊

模糊聚类法鉴别烟用香精品质Fuzzy cluster analysis Gas chromatography-mass spectroscopy Tob

高校自然科学学报影响因子评析

影响因子作为科技期刊评价的指标之一,并不是万能的,而是有其自身局限性的.由此提出要正确认识影响因子,找准高校自然科学学报的定位.随着影响因子被广泛接受,它将在作者、读

期刊

高校自然科学学报影响因子学术质量学报发展

高管股权激励对企业避税行为的影响研究

企业避税行为一直是理论界和实务界研究的重点关注领域。随着现代企业制度的建立和发展,企业所有权和经营权分离,股东和经理人员二者之间的目标不一致导致委托-代理问题,很多

学位

企业避税股权激励高管异质性所有权性质

调制过程中晒黄烟的物理变化和化学变化

研究了改进晒制法和传统晒制法调制过程中晒黄烟烟叶的物理变化和化学变化.结果表明,烟叶含水率和叶绿素含量随调制进程的推进而逐渐下降,在凋萎变黄期间烟叶中淀粉、蛋白质

期刊

晒黄烟烟叶调制物理变化化学变化Yellow sun-cured tobacco Curing Physical changes Chemical cha

烟用香精中薄荷醇的气相色谱／质谱分析

采用保留时间比对法和选择离子(81amu)气相色谱/质谱法定性定量分析了烟用香精中的薄荷醇.方法的检测限为0.0028mg/mL,平均回收率为98.52%,RSD为2.41%.

期刊

烟用香精薄荷醇气相色谱/质谱仪外标法Tobacco flavor Menthol GC/MS External standard method

汉语名物化现象再认识

汉语名物化用法的提出最早见于1956年由张志公主持制定的《暂拟汉语教学语法系统》,也是在20世纪50年代汉语词类问题大讨论这一特定的背景下产生的。名物化用法自提出之后,便成为学界争论的热点,至今尚无定论。因此,本文希望立足于语言实际用例,对汉语名物化现象进行分析和总结,从而对名物化现象有一个明确和清晰的认识。全文共有五个部分:第一部分是绪论。这一部分主要交代了对汉语名物化现象进行研究的原因、目的和

学位

汉语名物化现象语法特征本质属性

《荷花》教学案例

<正>一、案例主题(一)主题怎样的课堂教学(或学习)方式是合适于孩子的教育。(二)背景这是一节镇级交流汇报课。我在一所农村小学任教,在交流日这天和其他学校的教师集中到镇

期刊

白荷花叶圣陶教学案例《荷花》

基于Stacking框架弱监督深度学习情感分析研究

与本文相关的学术论文