基于支持向量机的文本情感分析研究

被引量 : 15次 | 上传用户:weixin1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展使其影响力深入各个领域,目前超越传统媒体成为了信息发布、传递和产生影响的主要平台。研究互联网舆情情感倾向,对掌握社会的状态、事件的动态具有重要意义,对政府、企业等行为主体的决策有很大的帮助。但目前以支持向量机为代表的主流舆情情感倾向分析方法中,不能考虑到词汇以及文本中包含的潜在语义信息,对文本情感分析过度依托于情感词的统计。本文对支持向量机的核函数、局部多核学习以及概率潜在语义分析等相关方法进行研究和改进,如在核函数内积中考虑到文本特征的概率因素,在局部多核学习方法中来为特征空间降维等,以此来提高文本情感分析的准确性。同时,本文将研究成果应用到文本情感倾向分析中,为网络舆情情感倾向分析提供新的思路。本文的主要工作具体如下:1.提出基于概率潜在语义分析的Fisher核函数。通过Fisher函数可‘以测量生成模型集和统计模型集上的两个对象相似性,推导出基于概率潜在语义分析的Fisher核函数。能够让带有概率特征的潜在语义信息作为分类特征,进而提高支持向量机的分类效果。解决现有文本情感分析无法考虑到文本中的潜在语义特征的问题。2.给出基于Fisher判别分析的支持向量机参数选择方法。在Fisher判别分析的研究基础上,针对支持向量机核参数随机初始化带来的问题,在特征空间中,结合样本数据的类别间可分离性进行参数寻优。解决现有的支持向量机核函数参数随机初始化方法带来的实验结果不够稳定的问题。3.给出一种局部多重核学习算法。将其多核学习方法局部化以便使用阈值模型选择局部最优的核函数,可用来确定更有效的样本特征。解决文本中常见的维数灾难问题,并在最后的文本情感分析中,用于情感特征词的选择。4.根据潜在语义分析方法(LSA)改进概率潜在语义分析(PLSA)的参数初始化方法,并用于提供文本情感分类特征。提出三种基于支持向量机的文本情感分析方法。用文本主题这一具有高层语义信息的特征来表示文档,将文本特征的概率特征与改进核函数后的支持向量机相结合,进而挖掘文本中的情感倾向。5.利用“推特”数据集对本文提出的三种方法的分类精度进行实验验证。就实验结果给出对比分析以验证情感分析方法的效果,最后将本文研究的方法应用在油田技术领域的趋势分析之中,在实例应用中检测其文本情感分类效果。
其他文献
准入前国民待遇是在保障公平的前提下最大限度促进投资自由化的外资待遇标准,是现阶段业已存在的最高水平的外资待遇标准。目前我国已从制度层面确立准入前国民待遇+负面清单
采用文献法、比较法、逻辑分析法,探究作用于历史发展和社会发展方向、趋势和基本路径的关于人类社会的普遍规律,认为伴随中国特色社会主义道路和模式的不断拓展,关于人类社
关联理论对翻译标准和翻译实践从全新的角度做出了合理的诠释。根据关联理论,翻译被看作是特殊形式的交际。本文以沙博理的《水浒传》译本中的习语翻译为例,分析了习语的各种
随着对水下通信速率要求的提高和水下通信用户的增加,实现高速水声通信和对水下频谱资源的有效共享成为了水声通信的研究热点。认知水声通信系统为解决频谱资源共享提出了新
作者认为自己对该墓志的最初考释不确。该墓实为辽圣宗之孙、耶律宗愿之子耶律弘用与其妻萧氏的合葬墓。
<正> 《酬乐天扬州初逢席上见赠》一诗,是中唐诗人刘禹锡的名作,古今传诵。然而,自“四人帮”伪造儒法斗争史以来,刘禹锡被戴上了“法家”的桂冠,这篇作品也被无限制地拔高了
转型与升级是产业集群生命周期里的重要组织部分,也是产业经济转变增长方式的应有之义。本文认为基于产业生态化思想的传统产业集群转型升级是一种可持续发展模式,也代表了当
一首被称为"神曲"的无词歌《忐忑》走红互联网,在备受热捧的同时也引发各种争议。不管是各种拟声词组合的歌词,还是特色鲜明的"剧场"表演,这种传播现象都建立在符号互动的基
归纳近几年来福建机关效能投诉制度在政策、机制、结构等方面的新发展特征,如改进制度安排、拓宽投诉渠道、建立直接查办快办机制、创立"服务海西信息点"、优化效能监督主体