论文部分内容阅读
伴随着web技术应用的日渐成熟,越来越多的人开始在互联网上自由的发表白己的观点看法。这使得互联网成为可以挖掘关于各种主题的用户观点的极其有价值的资源库。在这样的背景下产生了情感分析与观点挖掘技术。而以往的文本处理技术并不能直接适用于情感分析和观点挖掘的问题。因此需要研究针对互联网评论文本特点的相关技术。经过统计分析发现,与传统文本分类所研究的主题特征的高频性恰好相反,互联网评论文本中情感特征表现为稀疏性和低频性。针对这个特点,本文重点研究了互联网评论中情感分析和观点挖掘算法。论文工作具有较重要的理论意义和实用价值。本文对以下几点工作做了一定的研究:1)在对两种语料库进行统计分析和对传统的文本主题分类的缺点进行分析的基础上,提出了基于词性的情感分类特征选择算法。在统计中发现形容词、副词、动词、名词具有情感倾向,可以作为情感分类的特征项。如果在特征提取时只提取具有情感倾向词类的词语作为特征项,这样会使得特征空间大大降低,将一些对情感分类不具有分类特征的词就可以排除在外。之后,使用改进的信息增益特征选择方法和χ‘统计量特征选择方法进行情感特征选择。通过实验证明,基于词性的情感分类特征选择比传统的基于词频的特征选择算法在分类性能上有明显提高。2)在基于N-gram模型的分类中,由于N-gram模型会产生大量冗余信息,会对分类产生噪音,影响分类效果。所以针对这个缺点,提出了基于N-pos的情感分类特征选择算法。在统计分析了N-pos项中词性组合模式发现,具有情感倾向的词性组合模式是有限的,这样就可以利用这个统计规律对所提取的N-pos项进行词性组合筛选,在降低了特征空间维数的同时也提高了分类精度。通过对比实验也验证了基于N-pos的情感分类特征选择算法比基于N-gram模型的情感分类特征提取算法在分类性能上有较大提升。3)对观点集成中的观点句聚类问题进行了研究,提出了基于PLSA聚类的观点句聚类算法。针对网络评论中观点句的特点,先使用SVD降维,消除同义词现象。之后使用PLSA聚类算法将观点句聚合为多类,从而实现观点句的聚类。通过实验表明,该算法具有明显的聚类效果。4)开发了用于支持本文实验的情感分析与观点挖掘原型系统,实现了文本预处理、情感分类、观点聚类三个基本模块,提供了友好的用户界面。