论文部分内容阅读
随着微博、论坛的不断发展,越来越多的人喜欢在网络上发表自己的观点与看法,网络事件层出不穷。网络舆情成为社会舆情的主要反映方式和重点关注对象。但是,面对海量的、快速更新的网络信息和复杂的网络信息形式,相关部门难以有效进行收集和分类。因此,对网络舆情进行自动分类具有现实的需要。本文从网络舆情的相关概念出发,介绍了网络舆情数据的特点与类型,并深入分析网络舆情分类主体的特点。在研究分析网络舆情文本特点及规律的基础上,研究现有的各种主题分类技术,如:向量空间模型、特征选择方法、网络文本分类方法、评价指标、权重计算方法。其中,重点研究互信息、信息增益、CHI统计、交叉熵、证据权值等特征选择算法以及贝叶斯算法、K邻近值、支持向量机算法等文本分类算法。本文按照最近几年舆情热点构建了网络舆情风险分类体系,分为国家安全、政府执政、社会稳定、金融经济、日常生活、资源环境、精神文明、无风险等八大类。为验证分类算法的准确性,必须建立自己的舆情语料库,而国内在语料库方面尤其是舆情方面极为欠缺,因此需要人工分类。通过对2012年3月份的天涯网帖进行加工整理,建立了基于天涯论坛的网络舆情语料库。本文在深入研究支持向量机的算法,重点介绍现有的SVM算法后,提出了一种基于BT-SVM的分类算法。分析比较了目前研究较多的几种多类支持向量机算法,并对其算法进行详细描述,比较它们的优缺点及性能。重点研究了基于二叉树的多类SVM分类算法,其类间距离定义方法采用马氏距离。为验证该算法分类的效率和准确度,本文设计和实现了网络舆情文本分类系统,该系统分为五个功能模块,分别为预处理模块、特征降维模块、权重计算模块、文本分类模块与结果评估模块。其中,预处理的分词运用中科院的ICTCLAS系统,特征降维模块实现了互信息、信息增益、CHI统计、证据权值、交叉熵等多种特征选择方法,能够提高特征项选择的精度。权重计算模块在对TF*IDF和TF*IG及TF*IDF*IG进行研究后,实现了这三种方法。在文本分类模块中实现了SVM算法。在结果评估模块中,使用查准率和查全率对分类结果进行评测,并可对8个类别分别进行评测。结果评估模块可显示分类结果并与人工分类结果进行对比。最后,从查准率和查全率两个方面,对网络舆情分类系统进行测试。把天涯论坛语料库语料作为样本集,对人工分类所得的样本集进行测试,测试结果准确率达到94.88%。通过实验验证了特征选择、权重计算以及SVM分类算法的有效性和可行性。通过设置不同的特征选择方式、方法及权重方法分别进行实验,得出查准率、查全率后进行对比,选择各种算法中最优的方式,分别为:特征选择方式选取全局方式,特征选择方法选取期望交叉熵,权重计算方法选取TF*IDF*IG。