论文部分内容阅读
随着互联网、WEB2.0和电子商务的发展,在微博、贴吧和网站的评论中出现了大量的人们对商品、服务、新闻等领域发表心得、体会和意见的评论信息。准确地分析出用户的评论信息所要表达的情感倾向性,是褒贬倾向性分析的任务。褒贬倾向性分析分为对篇章、句子和词语等多级的倾向性分析。其中词语级别的是最小的分类单位,同时也是最基本的分类单位,在这些词汇之中,多极性形容词占有相当一部分比重,是褒贬倾向性分析的一个密不可分的组成,但是目前关于多极性形容词的研究很少,本文以从句子中提取搭配词为方法,构成搭配词表,完善规则库和褒贬词表知识库,以提高正确率多极性形容词的分类技术目前主要有两大类,分别是基于统计的方法和基于词典规则的方法。基于统计的方法有最大熵、贝叶斯分类器、KNN、支持向量机、点互信息等数学统计模型,通过特征提取,再分类出多极性形容词的褒贬倾向性;而基于词表的方法主要是在知网HowNet、WordNet、《汉语褒贬词表》、《同义词词林》等基础上抽取特征词,再进行比较分类,以确定多极性形容词的褒贬倾向性。本文提出了基于搭配词表的多极性形容词倾向性判别方法并将其应用在情感分析系统中,通过对语料进行句法分析,提取褒贬搭配词,构建成搭配词表,再利用搭配词表以确定多极性形容词的褒贬倾向性,以判别出多极性形容词的褒贬倾向性,最后将提取出的多极性形容词的褒贬性标注加入到文本的倾向性分析中,最终得到文本的褒贬倾向性判别结果。以此方式,有效地解决了文本分类中关于多极性形容词的一个盲区,将多极性形容词加入到文本倾向性分析中,提高了分类质量。由于多极性形容词具有强烈的上下文相关性,因此需要提取特征词即搭配词来确定其褒贬倾向性,本文以酒店评价类、IT类和比赛评测的多领域语料为基础,采用句法分析的方式提取搭配词,再通过计算褒贬倾向性频率来将搭配词归类,最终实现对多极性形容词的准确分类。在实验中,本文以酒店评价类的单领域语料和竞赛的多领域语料为测试语料。经过实验显示,本文方法所标注的多极性形容词褒贬倾向性的准确率在单领域语料中达到了95.43%,在跨领域语料中达到了95.13%。同时本文将多极性形容词加入到了情感分析系统中,情感分析系统褒贬倾向性分析的准确率也由93.63%提高到了93.81%。