论文部分内容阅读
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,对于电子商务、网络监管等领域有着重要的意义和实用价值。因而文本倾向性分类(Semantic Orientation Classification)正逐步成为自然语言处理领域的一个研究热点。本文研究的中文文本倾向性分类,即通过分析文本中的情感倾向,将文本判别为褒义或贬义两个类别。由于情感表达的复杂性,将传统基于机器学习的文本分类方法直接应用于文本倾向性分类领域,往往无法达到很好的分类效果。为提升分类性能,本文尝试为分类系统加入更多的语义信息,设计并实现了一个基于评价对象及其情感特征的中文文本倾向性分类系统。本文的主要研究工作和成果有:1)研究了传统基于机器学习的文本分类方法应用于中文文本倾向性分类领域的分类性能。通过采用不同的停用词表、特征选取方法、特征加权方法和分类器进行比较实验,最终发现采用保留情感信息相关词性的停用词表,并应用基于TF-IDF加权的支持向量机分类模型,能取得较好的分类效果。2)研究了情感特征候选集的获取方法。通过以《知网情感分析用词语集》中的词汇为种子集合,使用《同义词词林扩展版》进行同义扩展,获得了包含情感倾向性信息的常用词汇列表。3)研究了文本中评价对象及其情感特征的识别方法。考虑到文本所表达的情感倾向必然针对特定的对象,所以有必要将文本中的评价对象及其对应的情感词识别出来,作为包含文本倾向性信息的重要特征。本文采用了依存句法分析模块,并针对不同的依存关系制定了相应的识别规则,达到了较好的识别效果。4)提出了基于评价对象及其情感特征的文本向量模型。本文通过将(评价对象,情感词,情感标记)三元组作为文本向量特征,成功地将情感倾向性信息融入文本向量模型。5)提出了TSF-IDF的特征加权方法。通过词汇情感频率(TSF)和逆向文件频率(IDF)的结合,综合考虑了特征在文档中的情感倾向频度和在文档集中的重要程度。6)构建了基于评价对象及其情感特征的文本倾向性分类系统。在系统实验中,使用支持向量机分类器,对于酒店评论和电影评论这两个主题的语料进行了测试,分别获得了约89%和87%的准确率,效果优于使用传统的文本分类方法。