基于主题模型的无监督情感分类研究

被引量 : 0次 | 上传用户:ganglei2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速普及与发展,越来越多的用户喜欢在网上发表评论,分享自己对某个产品或事件的观点与看法,这使得网上含有主观情感色彩的文本的数量急剧增加。组织并分析这些海量的评论信息对了解大众舆论的情感倾向与观点走向具有重要现实意义。仅靠人工方法难以对海量的非结构化文本进行整理与分类,因此,如何自动地对主观性文本进行表示、组织、分析已成为机器学习与自然语言处理中研究的重要课题,而情感分类技术能够挖掘主观性文本中隐含的情感信息,识别其情感倾向,具有十分重要的研究意义。在众多的情感分类算法中,基于主题模型的情感分类模型由于无监督学习、领域适应好等优点,受到不少学者的广泛关注与研究,但这些模型的分类效果容易受情感表达、主题数目等因素的影响,并且其中的词袋假设不符合实际的情感表达方式。本文详细地分析了模型中存在的限制性假设,在此基础上提出改进的文档生成过程:针对主题情感混合模型中局部分布采样的不稳定性,通过考虑文档的整体情感倾向使用文档级分布生成局部分布,提高局部分布中情感估计的准确性;针对情感生成模型中单词的独立性假设难以表示文档中情感的表达规律,通过考虑情感词的上下文环境使用二元语法改进单词与情感的生成过程,更好地表示相邻单词间的情感关系。通过实验对分类效果进行评估与对比,实验结果表明了本文方法的有效性,提高了情感分类的准确率。本文的研究内容与主要工作分为如下四个方面:1.研究与总结了几种主流的基于主题模型的无监督情感分类模型,详细地介绍了相关的生成过程与参数估计的方法,分析并归纳了其基本思想与特点,并选此类方法作为本文的主要研究内容。2.提出多粒度的主题情感混合模型。详细地阐述了主题情感混合模型中的全局分布与局部分布的关系,从局部分布的角度分析了影响分类性能的因素。为提高局部分布中对情感或主题估计的准确性,本文通过考虑文档级与局部两个粒度,使用更能代表文档整体情感倾向的文档级分布生成局部分布,改进了主题情感混合模型的生成过程。3.提出基于二元语法的无监督情感分类模型。介绍了主观性文档中情感表达常表现出局部性的现象,为考虑情感词的上下文环境,使用二元语法模型弱化情感生成模型中的词袋假设,改进生成过程来模拟当前情感对后一个单词或情感生成的影响,从而可以表示文档中相邻单词间的情感依赖关系。4.选取MR与MDS等数据集分别对所提方法进行实验评估。使用吉布斯采样对模型参数进行估计,实验结果以总体准确率作为评价标准,以相关的情感分类模型作为对比算法,评估并分析了本文方法的分类效果,实验表明本文算法有效地改善了情感分类的效果,提升了分类准确率。
其他文献
在第二次世界大战中,由于拉丁美洲远离战火,因而国内外史学界在对二战史的研究中对拉丁美洲关注不多。在对战时美国的战略研究方面,也未对美国的拉美战略与政策进行过专门的个案
在过去的二三十年内,网上购物深刻地影响着我国广大普通消费者的消费行为,同时对于企业来说,在面临新兴的电子商务市场时,应该充分发挥其在生产和销售等环节的指导和决策作用
组织工程是应用细胞生物学和工程学的原理,对病损组织结构和功能的修复与重建进行研究的一门新兴学科,骨组织工程是一个主要分支。骨髓基质细胞因为具备来源丰富、损伤小、取材
飞机积冰严重威胁着飞行安全,若在航班放行前就可以对我国空域上的潜在飞机积冰区分布情况有着清晰的了解,对保障航班正常运行和节约公司成本有一定意义。针对现有飞机积冰预
蒋捷是宋元之际一位著名词人。宋末即与刘辰翁等“以词鸣一时”,然其生平事迹晦昧难晓。蒋捷入元不仕,其人品获得一致好评。陈廷焯称许他“人品高绝”,况周颐夸赞他“抱节终身”
笔者通过十余年栽培美人指葡萄的生产实践,阐述了南方地区设施栽培美人指葡萄花序的形成过程,提出优良的结果母枝剪口粗度宜在10 mm以上。并对开花后子房发育程度所产生的多
信息化技术改变了人们的生活方式,同时也给基层党组织带来了机遇和挑战。上海基层党组织利用信息化技术探索党的建设,有效提高了党员教育和管理的科学化水平,增强了基层党组
随着人民民主观念的增强,民主不仅是一种普遍的政治观念,更逐渐成为一种公认的价值体系。从2003年“非典事件”开始,行政问责开始引起社会公众的注意。同时,作为异体问责的公
据东莞市质监局方面介绍,涉嫌生产假冒产品的厂家为东莞市塘厦润泽助剂制品有限公司,是一家持有营业执照的企业。在一楼生产车间,执法人员发现少量标称美国WD-40万能防锈润滑剂
针对主机主轴承与配合轴异常磨损故障,对轴承和轴的材料进行分析,结果证明,轴承内径面及轴异常磨损与材料热膨胀系数不匹配有关,并对此提出改进措施,经验证,改进后轴承磨损问