论文部分内容阅读
互联网的迅速发展使其影响力深入各个领域,目前超越传统媒体成为了信息发布、传递和产生影响的主要平台。研究互联网舆情情感倾向,对掌握社会的状态、事件的动态具有重要意义,对政府、企业等行为主体的决策有很大的帮助。但目前以支持向量机为代表的主流舆情情感倾向分析方法中,不能考虑到词汇以及文本中包含的潜在语义信息,对文本情感分析过度依托于情感词的统计。本文对支持向量机的核函数、局部多核学习以及概率潜在语义分析等相关方法进行研究和改进,如在核函数内积中考虑到文本特征的概率因素,在局部多核学习方法中来为特征空间降维等,以此来提高文本情感分析的准确性。同时,本文将研究成果应用到文本情感倾向分析中,为网络舆情情感倾向分析提供新的思路。本文的主要工作具体如下:1.提出基于概率潜在语义分析的Fisher核函数。通过Fisher函数可‘以测量生成模型集和统计模型集上的两个对象相似性,推导出基于概率潜在语义分析的Fisher核函数。能够让带有概率特征的潜在语义信息作为分类特征,进而提高支持向量机的分类效果。解决现有文本情感分析无法考虑到文本中的潜在语义特征的问题。2.给出基于Fisher判别分析的支持向量机参数选择方法。在Fisher判别分析的研究基础上,针对支持向量机核参数随机初始化带来的问题,在特征空间中,结合样本数据的类别间可分离性进行参数寻优。解决现有的支持向量机核函数参数随机初始化方法带来的实验结果不够稳定的问题。3.给出一种局部多重核学习算法。将其多核学习方法局部化以便使用阈值模型选择局部最优的核函数,可用来确定更有效的样本特征。解决文本中常见的维数灾难问题,并在最后的文本情感分析中,用于情感特征词的选择。4.根据潜在语义分析方法(LSA)改进概率潜在语义分析(PLSA)的参数初始化方法,并用于提供文本情感分类特征。提出三种基于支持向量机的文本情感分析方法。用文本主题这一具有高层语义信息的特征来表示文档,将文本特征的概率特征与改进核函数后的支持向量机相结合,进而挖掘文本中的情感倾向。5.利用“推特”数据集对本文提出的三种方法的分类精度进行实验验证。就实验结果给出对比分析以验证情感分析方法的效果,最后将本文研究的方法应用在油田技术领域的趋势分析之中,在实例应用中检测其文本情感分类效果。