网络舆情文本分类系统研究与开发

被引量 : 5次 | 上传用户：dfsdasdas

【摘要】

：

随着互联网的不断发展,新闻评论、微博、论坛的兴起,人们越来越倾向于在网络上发表自己的观点与看法,网络舆情也就显得格外重要。由于网络上的信息错综复杂、内容形式过于丰

【作者】

：

曾颖黎

【发表日期】

：

2014年01期

【关键词】

：

特征选择短文本文本分类网络舆情

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的不断发展,新闻评论、微博、论坛的兴起,人们越来越倾向于在网络上发表自己的观点与看法,网络舆情也就显得格外重要。由于网络上的信息错综复杂、内容形式过于丰富,不利于政府相关部门收集网络舆情。为了方便政府部门查看自己感兴趣的舆情信息,需要对舆情文本进行分类。本系统是网络舆情监测系统下的一个子系统,旨在对爬虫抓取到的舆情信息自动进行分类。爬虫端对于抓取到的舆情信息按照来源不同分为长文本与短文本,其中来源为新闻、博客与论坛主楼的舆情为长文本,来源为微博、论坛回复的舆情为短文本。目前常用的分类算法在长文本上性能良好,但是在短文本上的分类效果不尽如人意。本文首先研究长文本分类上的相关算法,然后针对短文本分类的难点,重点对于其进行研究与分析,在已有的技术上对算法进行改进。研究内容主要包括:1.研究了长文本下的特征选择算法与文本分类算法。根据实验结果,最终确定在本系统中长文本特征选择算法采用CHI统计,分类算法采用核函数为RBF的SVM算法。2.提出了一种基于特征拓展的短文本分类方法。该方法通过word2vec对特征项进行拓展改善短文本特征稀疏的难点。测试结果表明,在参数适当的前提下,此算法能明显改进短文本分类的效果。3.在相关技术的基础之上,详细设计并实现了舆情监测系统中的文本分类子系统,该子系统分为四个功能模块,分别为预处理模块、特征选择模块、文本分类模块与交互功能模块。其中,预处理模块介绍与实现了对文本进行分词,过滤停用词以及词频统计;特征选择模块实现了三种常用的特征选择算法与特征拓展;文本分类模块实现了朴素贝叶斯和SVM算法;交互功能模块阐述了分类结果在Web端显示的具体实现。4.最后,分别从功能测试与性能测试两方面入手,证明了系统的有效性和实用性。测试表明,在本系统中使用基于特征拓展的短文本分类方法,在特征词个数选择合理的情况下,对于短文本测试集分类得到的准确率为73.98%,召回率为74.61%,F1值为74.29%。

其他文献

园林绿化施工技术及质量控制研究

园林绿化工程作为城市的明信片,近年来建设发展速度明显加快,其对于美化环境、调节生态系统都有一定的作用。因此,如何不断提高园林绿化工程施工技术,加强质量控制就显得尤为

期刊

园林绿化施工技术质量控制

我国地方政府生态绩效管理问题研究

中国工业化和城市化发展迅速,我国正步入加速城市化的时期,伴随经济发展速度的加快,城市规模显著增长,城市空间结构发生巨大变化,而生态空间的破碎化也逐渐加剧,城市生态环境

学位

生态文明政府绩效管理生态绩效

胶红酵母JB401降解脱色三苯甲烷类染料

从烟梗中分离筛选得到1株能够对三苯甲烷类染料高效脱色的微生物,经ITS-5.8S rDNA分析鉴定为胶红酵母,命名为Rhodotorula mucilaginosa JB401。全波长扫描实验结果证实染料的

期刊

生物降解脱色胶红酵母三苯甲烷染料

增值税会计核算存在的问题及其规范完善

期刊

销项税额纳税人应交增值税税务机关增值税纳税申报表增值税会计增值税管理应交税金存在的问题

教师教学反思能力对其专业发展的促进

建设创新型国家的基础在于教育的发展,教育发展的关键是教师教学反思实践能力的提高和教师专业发展。文章理性思考了我国教师教学的实践性反思和教师专业发展的内涵,充分认识

期刊

教学反思反思能力教学实践教师专业发展

药品生产质量保证体系的建立

以《药品生产质量管理规范》(GMP)为依据,运用“过程方法”、“管理的系统方法”和“层次分析”理论,以药品生产体系的增值链系统为线索,对药品生产质量管理中的工序控制、信

期刊

药品生产质量保证体系GMP流程图

我国文化产业专业人才需求与培养模式分析

在我国推动文化大繁荣、大力发展文化产业的背景下,文化市场急需与市场需求相适应的文化产业专业人才。目前,我国文化产业人才培养模式还处于探索阶段,存在学科定位不明、专

期刊

文化产业人才需求培养模式

基于半导体激光器的汽车前照灯白光光源研究

半导体激光器是一种工作寿命长、体积小、性能稳定、电光转换效率高、耐碰撞的半导体光源。利用半导体激光器制作汽车前照灯时也相应拥有能耗低、体积小、工作寿命长等优点。

学位

半导体激光器荧光粉汽车前照灯白光光源

关于个人房屋出租收入中税收流失问题的调查

期刊

税收流失出租房屋偷逃税税务机关房屋出租

浙江省机电高级技工学校教学资源平台的设计与实现

为了更快更好的发展职业教育教育部颁布《中等职业教育改革创新行动计划》中提出了明确要求,解决中等职业教育信息化水平不高的问题,建立/完善信息化管理、数字化校园建设、

学位

教学资源平台数字化校园ASP.NETAjax三层架构

网络舆情文本分类系统研究与开发

与本文相关的学术论文