论文部分内容阅读
随着互联网技术的迅速普及与发展,越来越多的用户喜欢在网上发表评论,分享自己对某个产品或事件的观点与看法,这使得网上含有主观情感色彩的文本的数量急剧增加。组织并分析这些海量的评论信息对了解大众舆论的情感倾向与观点走向具有重要现实意义。仅靠人工方法难以对海量的非结构化文本进行整理与分类,因此,如何自动地对主观性文本进行表示、组织、分析已成为机器学习与自然语言处理中研究的重要课题,而情感分类技术能够挖掘主观性文本中隐含的情感信息,识别其情感倾向,具有十分重要的研究意义。在众多的情感分类算法中,基于主题模型的情感分类模型由于无监督学习、领域适应好等优点,受到不少学者的广泛关注与研究,但这些模型的分类效果容易受情感表达、主题数目等因素的影响,并且其中的词袋假设不符合实际的情感表达方式。本文详细地分析了模型中存在的限制性假设,在此基础上提出改进的文档生成过程:针对主题情感混合模型中局部分布采样的不稳定性,通过考虑文档的整体情感倾向使用文档级分布生成局部分布,提高局部分布中情感估计的准确性;针对情感生成模型中单词的独立性假设难以表示文档中情感的表达规律,通过考虑情感词的上下文环境使用二元语法改进单词与情感的生成过程,更好地表示相邻单词间的情感关系。通过实验对分类效果进行评估与对比,实验结果表明了本文方法的有效性,提高了情感分类的准确率。本文的研究内容与主要工作分为如下四个方面:1.研究与总结了几种主流的基于主题模型的无监督情感分类模型,详细地介绍了相关的生成过程与参数估计的方法,分析并归纳了其基本思想与特点,并选此类方法作为本文的主要研究内容。2.提出多粒度的主题情感混合模型。详细地阐述了主题情感混合模型中的全局分布与局部分布的关系,从局部分布的角度分析了影响分类性能的因素。为提高局部分布中对情感或主题估计的准确性,本文通过考虑文档级与局部两个粒度,使用更能代表文档整体情感倾向的文档级分布生成局部分布,改进了主题情感混合模型的生成过程。3.提出基于二元语法的无监督情感分类模型。介绍了主观性文档中情感表达常表现出局部性的现象,为考虑情感词的上下文环境,使用二元语法模型弱化情感生成模型中的词袋假设,改进生成过程来模拟当前情感对后一个单词或情感生成的影响,从而可以表示文档中相邻单词间的情感依赖关系。4.选取MR与MDS等数据集分别对所提方法进行实验评估。使用吉布斯采样对模型参数进行估计,实验结果以总体准确率作为评价标准,以相关的情感分类模型作为对比算法,评估并分析了本文方法的分类效果,实验表明本文算法有效地改善了情感分类的效果,提升了分类准确率。