论文部分内容阅读
现今,由于互联网技术飞速的前进,在互联网中人们表达自己观点这一现象越来越普遍,这一现象,引发了互联网中信息资源的爆炸性增长,促使人们想要获取缤纷复杂的信息来源几乎全来自于互联网,为此,网民们非常酷爱把互联网当作形影不离的工具。例如互联网上的微博、论坛等产生了巨多的含有观点,评论性的中文文本信息,这些中文文本信息呈现了人们丰富的感情色彩和表达人们对某事物的情感的倾向性,如褒、贬等。但面对这些海量的中文文本评论信息,人们迫切需要将这些中文文本进行自动的褒贬分类,那么,如何利用先进技术高效地快速将其进行褒贬倾向性分类,挖掘互联网信息,满足用户的需要等,值得深入的研究。因此,近些年来有关中文文本褒贬倾向性方面的分类问题的研究在数据挖掘领域受很大的关注。本文通过研究了很多关于中文文本褒贬倾向性分类的中文文本褒贬特征提取方法,重点研究了以下几种中文文本褒贬特征提取算法,包括常用的互信息、简单的文档频率、效果不错的信息增益等算法,之后利用其中的优点,研究了一种在褒贬特征提取时,对分类效果不错的特征提取算法(MIDF);并对褒贬义词典对分类结果的影响进行了研究。本文主要工作包括:把文本中的词语进行分割成一个一个短的词语,也叫做分词,之后去掉一些对分类结果无意义的词,也叫做去除停用词,并使用两类信息差值的特征提取算法(MIDF)进行中文文本褒贬特征提取,TFIDF权值计算方法进行的特征权值计算,并结合SVM对待分类文本进行最后的类别上的判断,结果有两类,一类是褒义的类别,另一类就是贬义的类别。在实验过程中,对比了特征数量的大小对褒贬分类结果的影响、布尔权值、TF权值和TFIDF权值三种不同计算方法对情感分类结果的影响以及SVM分类器对于不同类型文本数据的分类效果。