论文部分内容阅读
作为一种典型的社会化网络应用,微博对人们生活的影响与日俱增,也吸引了众多学者的研究兴趣。微博中规模庞大的用户群每天可产生海量信息,分析这些信息背后的情感倾向性具有很大的商业价值和社会价值。因此针对微博的情感分析问题,已成为当前的研究热点。微博具有短文本特征,其情感分析涉及到多个核心环节,尤其是特征选择和提取、领域知识的差异等,直接影响到情感分析的准确性。本论文以银行业务有关微博文本为对象,针对基础停用词表缺乏领域适用性的问题、传统TF-IDF缺乏词语位置分布信息和上下文语义关系问题,研究文本情感分析方法,构建银行领域停用词表,并提出一种基于LSA和改进后TF-IDF的混合算法用于特征选择与提取。论文主要工作如下:(1)提出了构建银行领域停用词表。停用词表的使用主要是为了在信息检索的过程中提高检索效率,节省时间和空间成本。然而,不同的领域对停用词表中的内容会有不同的要求,而目前已有的停用词表都不具有领域适用性。本论文在基础停用词表的基础上,采取词频法和文档频次法对其进行增补,同时采用情感词典的方法对其中部分情感词进行删减。实验结果表明,银行领域停用词表相比传统停用词表,性能良好、内容完全、具有领域性,可以很大程度的减少文本中的无意义字词,从而减少文本噪音,提高特征项的选择准确率。(2)提出了基于LSA和改进后TF-IDF公式的混合算法。传统TF-IDF主要是通过词语频率进行特征项选择,该方法的缺陷是只注重数学计算,而忽略了词语在类内和类间的分布问题以及上下文之间的语义关系。针对上述问题,本论文首先对IDF的公式进行了改进,将特征项在类内和类间的分布引入计算,从而解决了词语的位置分布问题。接着引入潜在语义分析的思想,通过标识词语间的相似性,解决了 TF-IDF忽略语义关系的问题。(3)仿真对比实验验证了本文构建的停用词表及改进的混合算法的性能。针对提取出的特征,将其分别应用于朴素贝叶斯、逻辑回归、Libsvm、Liblinear四种分类器进行模型训练,并从准确率、召回率、F值三个方面对本文提出的方法进行验证。结果表明,使用重新构建的停用词表后,特征词提取的准确率有了约1%改善。运用本文改进后的混合算法,情感分类的准确率、召回率、F值都有了 3%左右的提升。