网络舆情文本分类系统研究与开发

被引量 : 5次 | 上传用户:dfsdasdas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,新闻评论、微博、论坛的兴起,人们越来越倾向于在网络上发表自己的观点与看法,网络舆情也就显得格外重要。由于网络上的信息错综复杂、内容形式过于丰富,不利于政府相关部门收集网络舆情。为了方便政府部门查看自己感兴趣的舆情信息,需要对舆情文本进行分类。本系统是网络舆情监测系统下的一个子系统,旨在对爬虫抓取到的舆情信息自动进行分类。爬虫端对于抓取到的舆情信息按照来源不同分为长文本与短文本,其中来源为新闻、博客与论坛主楼的舆情为长文本,来源为微博、论坛回复的舆情为短文本。目前常用的分类算法在长文本上性能良好,但是在短文本上的分类效果不尽如人意。本文首先研究长文本分类上的相关算法,然后针对短文本分类的难点,重点对于其进行研究与分析,在已有的技术上对算法进行改进。研究内容主要包括:1.研究了长文本下的特征选择算法与文本分类算法。根据实验结果,最终确定在本系统中长文本特征选择算法采用CHI统计,分类算法采用核函数为RBF的SVM算法。2.提出了一种基于特征拓展的短文本分类方法。该方法通过word2vec对特征项进行拓展改善短文本特征稀疏的难点。测试结果表明,在参数适当的前提下,此算法能明显改进短文本分类的效果。3.在相关技术的基础之上,详细设计并实现了舆情监测系统中的文本分类子系统,该子系统分为四个功能模块,分别为预处理模块、特征选择模块、文本分类模块与交互功能模块。其中,预处理模块介绍与实现了对文本进行分词,过滤停用词以及词频统计;特征选择模块实现了三种常用的特征选择算法与特征拓展;文本分类模块实现了朴素贝叶斯和SVM算法;交互功能模块阐述了分类结果在Web端显示的具体实现。4.最后,分别从功能测试与性能测试两方面入手,证明了系统的有效性和实用性。测试表明,在本系统中使用基于特征拓展的短文本分类方法,在特征词个数选择合理的情况下,对于短文本测试集分类得到的准确率为73.98%,召回率为74.61%,F1值为74.29%。
其他文献
园林绿化工程作为城市的明信片,近年来建设发展速度明显加快,其对于美化环境、调节生态系统都有一定的作用。因此,如何不断提高园林绿化工程施工技术,加强质量控制就显得尤为
中国工业化和城市化发展迅速,我国正步入加速城市化的时期,伴随经济发展速度的加快,城市规模显著增长,城市空间结构发生巨大变化,而生态空间的破碎化也逐渐加剧,城市生态环境
从烟梗中分离筛选得到1株能够对三苯甲烷类染料高效脱色的微生物,经ITS-5.8S rDNA分析鉴定为胶红酵母,命名为Rhodotorula mucilaginosa JB401。全波长扫描实验结果证实染料的
建设创新型国家的基础在于教育的发展,教育发展的关键是教师教学反思实践能力的提高和教师专业发展。文章理性思考了我国教师教学的实践性反思和教师专业发展的内涵,充分认识
以《药品生产质量管理规范》(GMP)为依据,运用“过程方法”、“管理的系统方法”和“层次分析”理论,以药品生产体系的增值链系统为线索,对药品生产质量管理中的工序控制、信
在我国推动文化大繁荣、大力发展文化产业的背景下,文化市场急需与市场需求相适应的文化产业专业人才。目前,我国文化产业人才培养模式还处于探索阶段,存在学科定位不明、专
半导体激光器是一种工作寿命长、体积小、性能稳定、电光转换效率高、耐碰撞的半导体光源。利用半导体激光器制作汽车前照灯时也相应拥有能耗低、体积小、工作寿命长等优点。
为了更快更好的发展职业教育教育部颁布《中等职业教育改革创新行动计划》中提出了明确要求,解决中等职业教育信息化水平不高的问题,建立/完善信息化管理、数字化校园建设、