论文部分内容阅读
随着互联网的不断发展,新闻评论、微博、论坛的兴起,人们越来越倾向于在网络上发表自己的观点与看法,网络舆情也就显得格外重要。由于网络上的信息错综复杂、内容形式过于丰富,不利于政府相关部门收集网络舆情。为了方便政府部门查看自己感兴趣的舆情信息,需要对舆情文本进行分类。本系统是网络舆情监测系统下的一个子系统,旨在对爬虫抓取到的舆情信息自动进行分类。爬虫端对于抓取到的舆情信息按照来源不同分为长文本与短文本,其中来源为新闻、博客与论坛主楼的舆情为长文本,来源为微博、论坛回复的舆情为短文本。目前常用的分类算法在长文本上性能良好,但是在短文本上的分类效果不尽如人意。本文首先研究长文本分类上的相关算法,然后针对短文本分类的难点,重点对于其进行研究与分析,在已有的技术上对算法进行改进。研究内容主要包括:1.研究了长文本下的特征选择算法与文本分类算法。根据实验结果,最终确定在本系统中长文本特征选择算法采用CHI统计,分类算法采用核函数为RBF的SVM算法。2.提出了一种基于特征拓展的短文本分类方法。该方法通过word2vec对特征项进行拓展改善短文本特征稀疏的难点。测试结果表明,在参数适当的前提下,此算法能明显改进短文本分类的效果。3.在相关技术的基础之上,详细设计并实现了舆情监测系统中的文本分类子系统,该子系统分为四个功能模块,分别为预处理模块、特征选择模块、文本分类模块与交互功能模块。其中,预处理模块介绍与实现了对文本进行分词,过滤停用词以及词频统计;特征选择模块实现了三种常用的特征选择算法与特征拓展;文本分类模块实现了朴素贝叶斯和SVM算法;交互功能模块阐述了分类结果在Web端显示的具体实现。4.最后,分别从功能测试与性能测试两方面入手,证明了系统的有效性和实用性。测试表明,在本系统中使用基于特征拓展的短文本分类方法,在特征词个数选择合理的情况下,对于短文本测试集分类得到的准确率为73.98%,召回率为74.61%,F1值为74.29%。