情感分析的特征提取算法与观点的聚类算法研究

被引量 : 3次 | 上传用户:thirdeyes
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着web技术应用的日渐成熟,越来越多的人开始在互联网上自由的发表白己的观点看法。这使得互联网成为可以挖掘关于各种主题的用户观点的极其有价值的资源库。在这样的背景下产生了情感分析与观点挖掘技术。而以往的文本处理技术并不能直接适用于情感分析和观点挖掘的问题。因此需要研究针对互联网评论文本特点的相关技术。经过统计分析发现,与传统文本分类所研究的主题特征的高频性恰好相反,互联网评论文本中情感特征表现为稀疏性和低频性。针对这个特点,本文重点研究了互联网评论中情感分析和观点挖掘算法。论文工作具有较重要的理论意义和实用价值。本文对以下几点工作做了一定的研究:1)在对两种语料库进行统计分析和对传统的文本主题分类的缺点进行分析的基础上,提出了基于词性的情感分类特征选择算法。在统计中发现形容词、副词、动词、名词具有情感倾向,可以作为情感分类的特征项。如果在特征提取时只提取具有情感倾向词类的词语作为特征项,这样会使得特征空间大大降低,将一些对情感分类不具有分类特征的词就可以排除在外。之后,使用改进的信息增益特征选择方法和χ‘统计量特征选择方法进行情感特征选择。通过实验证明,基于词性的情感分类特征选择比传统的基于词频的特征选择算法在分类性能上有明显提高。2)在基于N-gram模型的分类中,由于N-gram模型会产生大量冗余信息,会对分类产生噪音,影响分类效果。所以针对这个缺点,提出了基于N-pos的情感分类特征选择算法。在统计分析了N-pos项中词性组合模式发现,具有情感倾向的词性组合模式是有限的,这样就可以利用这个统计规律对所提取的N-pos项进行词性组合筛选,在降低了特征空间维数的同时也提高了分类精度。通过对比实验也验证了基于N-pos的情感分类特征选择算法比基于N-gram模型的情感分类特征提取算法在分类性能上有较大提升。3)对观点集成中的观点句聚类问题进行了研究,提出了基于PLSA聚类的观点句聚类算法。针对网络评论中观点句的特点,先使用SVD降维,消除同义词现象。之后使用PLSA聚类算法将观点句聚合为多类,从而实现观点句的聚类。通过实验表明,该算法具有明显的聚类效果。4)开发了用于支持本文实验的情感分析与观点挖掘原型系统,实现了文本预处理、情感分类、观点聚类三个基本模块,提供了友好的用户界面。
其他文献
从理论研究、临床疗效研究及基础研究三个方面,对近年来中医运用理气活血方药治疗冠心病心绞痛进行综述和分析,提出了目前临床及基础研究中存在的问题和不足,对新兴技术和方法在
研究目的1.探讨重楼皂苷Ⅰ、Ⅱ对膀胱癌细胞株EJ、BIU-87、T24增殖的影响。2.探讨重楼皂苷Ⅰ、Ⅱ对膀胱癌细胞株EJ、BIU-87、T24凋亡的影响。3.探讨细胞线粒体凋亡途径中重楼
中国当代史料是中国当代史研究的基本素材,是研究者复原和认识客观历史的"中介"。然而,由于研究者的立场和预设观点不同等原因,中国当代史料运用中出现了因伪造史料、篡改史
自20世纪80年代,日本曾多次出现青少年因被欺凌而自杀的事件。虽然我国的校园欺凌现象没有日本那么严重,但是,也有愈演愈烈之势。加之,校园欺凌严重影响青少年的人格形成和身
<正>以往对上市公司审计质量的经验研究都是基于年报的,这是有意义的。但是,中报审计为我们研究审计质量提供了一个特殊的视角。年报审计是全面审计,通过年报审计推断审计质
长期以来,书籍设计都被看做是封面设计,或是利用平面设计元素做着版面经营,将设计师、作者、编辑、印刷看成是相互独立的。这种陈旧的思维方式和分工观念已经无法满足受众日
概述了酸性镀铜光亮剂近10年的研究进展,介绍了几种光亮剂的性能、应用与作用,提出了选择与使用光亮剂应注意的几个问题,文章还列出了十种配方。
三年稻鸭共育栽培试验结果说明,本田移栽密度稀、移栽大穗型品种时稻鸭共育的效果更好。稻鸭共育栽培条件下,大米加工品质提高,外观品质变好,而蛋白质含量提高,食味品质变劣
近年来,随着全社会法治意识的不断进步,为了满足人民群众对公安工作的新要求和新期待,公安机关对行政执法行为的自我要求不断规范,对行政执法工作的衡量标准不断提高,对具体