论文部分内容阅读
随着互联网的飞速发展,网络已逐渐成为反映社会舆情的重要载体之一。近年来,对网络舆情进行倾向性分析已逐渐成为学术界的一个热点问题,其中涵盖了自然语言处理、信息检索、信息抽取、机器学习等多个领域,因此得到很多学者以及研究机构的关注。本文从情感词的识别入手首先构建了情感词典,并利用规则模板库提取了文本主题词,然后在情感词典和主题词权值基础上通过分析句子的句法结构来计算文本的情感倾向值。最后,本文还使用双分类器联合的方法对文本倾向性进行了判别。本文主要包括以下几个方面的内容:情感词典的构建、文本主题提取、基于语义的文本倾向性分析和基于自动分类的文本倾向性分析。 本文首先介绍了知网和语义相似度计算,然后在此基础上提出一种新的倾向值计算方法。为了满足实际应用的需要,在基本情感词典的基础上提出一种利用句式结构特点和情感词共现特征扩展情感词典的方法。接下来介绍了同义词词林和句法分析,并通过构建规则模板库,提出一种提取文本主题词的方法。有了情感词典和文本主题词,本文通过分析句子的语义特征、位置特征、段落特征和主题特征,提出一种基于语义的文本倾向性判别方法。最后,本文介绍了文本分类的一些常用方法,并在此基础上提出一种利用双分类器相联合进行文本情感倾向判别的方法,取得了良好的判别效果。