论文部分内容阅读
随着互联网的快速发展,互联网社会化媒体已成为人们获取信息、陈述观点、表达情绪和情感的主要平台。这些情感与观点往往蕴含了大量有价值的信息,对社会政治经济发展等各个方面都有着潜移默化的影响。如何研究并利用这些情感信息有着十分重要的意义。目前主流的情感分析研究方法包括情感词典结合句法规则和利用机器学习或深度学习方法构造情感分析模型等。词典法依赖于情感词典的构建,对新词、不规范词汇和变形词要做到及时吸收,存在词典更新要求高且精度不足等问题。利用机器学习与深度学习的情感分析依赖于模型的构建与特征的选取,在模型训练时需要提供有效的训练库,传统的监督学习算法都需要对数据进行标记,但随着时代的发展,大量的无标记数据的出现使得标记成本越来越高,在处理海量数据时其标记代价几乎不可接受。针对这种问题,本文提出尝试使用弱监督的思路,在少量标记的情况下通过使用预训练好的模型对无标记数据进行预测,然后将预测结果作为训练数据再次输入模型进行训练,不断提高模型的情感分类性能,以此解决标记代价高,训练库数据量不足的问题。鉴于目前主流的机器学习与深度学习情感分析算法都有其主要擅长的领域而同时也均存在自身的短板,如朴素贝叶斯分类模型算法简单时间空间开销小,但无法学习到样本属性之间的关联。支持向量机主要擅长解决二元分类模式识别问题。长短时记忆网络在分析序列数据时有着很好的性能表现,但是在以并行的方式提取情感特征方面其表现并不理想。卷积神经网络具有很强的结构特征捕捉能力,但是无法找到序列之间的相互联系等。针对此问题,本文提出通过使用集成学习中的Stacking框架,将各类机器学习与深度学习算法进行组合,结合弱监督思路方法,以达到在少量标记训练库不足的情况下,充分发挥各分类模型的优势,弥补自身短板,从而在整体上提升情感分析性能的目标。本文研究的主要贡献有以下三个:(1)针对情感训练库不足,海量数据标记成本过高的问题,提出使用弱监督思路方法,在少量标记的情况下不断提高模型的情感分类性能。(2)针对主流机器学习与深度学习情感分析模型各自存在的优势与不足,使用单个分类器模型性能上升瓶颈的问题,提出使用集成学习中的Stacking框架,将不同模型进行组合,并结合弱监督方法,在训练库不足的情况下进一步提升情感分析模型性能。(3)本文将研究的基于Stacking框架弱监督深度学习情感分析模型的相关代码与数据作为开源项目发布在GitHub平台,供相关领域研究者进一步对情感分析技术进行探索研究。