基于SVM的网络舆情文本分类研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户：siany

【摘要】

：

随着微博、论坛的不断发展,越来越多的人喜欢在网络上发表自己的观点与看法,网络事件层出不穷。网络舆情成为社会舆情的主要反映方式和重点关注对象。但是,面对海量的、快速

【作者】

：

张帅

【出处】

：

曲阜师范大学

【发表日期】

：

2015年期

【关键词】

：

支持向量机文本分类网络舆情天涯语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着微博、论坛的不断发展,越来越多的人喜欢在网络上发表自己的观点与看法,网络事件层出不穷。网络舆情成为社会舆情的主要反映方式和重点关注对象。但是,面对海量的、快速更新的网络信息和复杂的网络信息形式,相关部门难以有效进行收集和分类。因此,对网络舆情进行自动分类具有现实的需要。本文从网络舆情的相关概念出发,介绍了网络舆情数据的特点与类型,并深入分析网络舆情分类主体的特点。在研究分析网络舆情文本特点及规律的基础上,研究现有的各种主题分类技术,如:向量空间模型、特征选择方法、网络文本分类方法、评价指标、权重计算方法。其中,重点研究互信息、信息增益、CHI统计、交叉熵、证据权值等特征选择算法以及贝叶斯算法、K邻近值、支持向量机算法等文本分类算法。本文按照最近几年舆情热点构建了网络舆情风险分类体系,分为国家安全、政府执政、社会稳定、金融经济、日常生活、资源环境、精神文明、无风险等八大类。为验证分类算法的准确性,必须建立自己的舆情语料库,而国内在语料库方面尤其是舆情方面极为欠缺,因此需要人工分类。通过对2012年3月份的天涯网帖进行加工整理,建立了基于天涯论坛的网络舆情语料库。本文在深入研究支持向量机的算法,重点介绍现有的SVM算法后,提出了一种基于BT-SVM的分类算法。分析比较了目前研究较多的几种多类支持向量机算法,并对其算法进行详细描述,比较它们的优缺点及性能。重点研究了基于二叉树的多类SVM分类算法,其类间距离定义方法采用马氏距离。为验证该算法分类的效率和准确度,本文设计和实现了网络舆情文本分类系统,该系统分为五个功能模块,分别为预处理模块、特征降维模块、权重计算模块、文本分类模块与结果评估模块。其中,预处理的分词运用中科院的ICTCLAS系统,特征降维模块实现了互信息、信息增益、CHI统计、证据权值、交叉熵等多种特征选择方法,能够提高特征项选择的精度。权重计算模块在对TF*IDF和TF*IG及TF*IDF*IG进行研究后,实现了这三种方法。在文本分类模块中实现了SVM算法。在结果评估模块中,使用查准率和查全率对分类结果进行评测,并可对8个类别分别进行评测。结果评估模块可显示分类结果并与人工分类结果进行对比。最后,从查准率和查全率两个方面,对网络舆情分类系统进行测试。把天涯论坛语料库语料作为样本集,对人工分类所得的样本集进行测试,测试结果准确率达到94.88%。通过实验验证了特征选择、权重计算以及SVM分类算法的有效性和可行性。通过设置不同的特征选择方式、方法及权重方法分别进行实验,得出查准率、查全率后进行对比,选择各种算法中最优的方式,分别为:特征选择方式选取全局方式,特征选择方法选取期望交叉熵,权重计算方法选取TF*IDF*IG。

其他文献

肝癌介入术后院内感染分析及护理对策

目的调查分析肝癌患者介入后医院感染情况及相关因素,探讨行之有效的护理对策,指导临床工作,提高肝癌介入术后患者的生活质量.方法对2001年1月～2004年1 2月收住的28 6例肝癌介

期刊

妇幼保健管理中的公共关系

公共关系学主要研究社会组织与相关公众之间的信息沟通.传播网络关系,是社会组织创造良好的形象和声誉的一种应用传播行为,是现代组织经营管理艺术.

期刊

超算:比你想的更接地气

2019年4月,一张类似燃烧中蜂窝煤的照片传遍全世界--这是人类历史上首次得见"黑洞"的真容。实际上,关于黑洞的照片早在2017年4月历经十余天已拍摄完毕,此后,便是将来自全球8

期刊

射电望远镜黑洞接地气蜂窝煤照片

数学课堂中的学习方式

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

数学学习数学课堂数学活动学习方式

城乡同步课堂背景下的有价值课堂教学策略刍探

甘肃省白银市平川区教育局为促进义务教育均衡发展,围绕教育扶贫,盘活教育资源,在各学校现有电子白板的基础上,要求各学校利用录播设备和网络传输技术,建设城乡同步课堂,将乡

期刊

城乡同步课堂课堂教学信息技术同步学习

不同术式切除腮腺良性肿瘤的临床观察

为探讨不同术式在腮腺腮腺良性小肿瘤中治疗中的效果,我们将1988年9月-1998年8月在本科住院病历完整且有随访的,应用不同术式切除的腮腺腮腺良性小肿瘤直径在3.0cm以下的116

期刊

复星医药转入内生式增长

期刊

复星医药投资收益内生式增长同比增长净利润医药制造业主营业务收入

文化创意产业背景下艺术设计专业学生个体创造力的培养

在文化创意产业迅速发展、经济产值不断提升的背景下,培养具有创新能力的艺术设计师成为高校艺术设计专业亟待解决的重要课题,其重要性被世界许多国家证明。但目前我国在这方

期刊

艺术设计创意产业学生个体创造力竞争力

落实“六稳” 助推经济行稳致远

受访者$$张立群国务院发展研究中心宏观经济研究部研究员$$徐洪才中国国际经济交流中心副总经济师$$丛屹天津财经大学教授$$近日，中共中央政治局会议要求做好稳就业、稳金

报纸

双柱高架车站大震作用下的性能化设计

本文以佛山市轨道交通二号线一期工程石洲站为例,针对“桥-建”组合双柱高架车站,进行大震性能化设计(E3地震作用分析),进而阐述了应用《城市轨道交通结构抗震设计规范》(GB5

期刊

双柱高架车站性能化设计大震分析弹塑性分析

基于SVM的网络舆情文本分类研究

与本文相关的学术论文