面向网络舆情态势分析的文本分类研究

被引量 : 0次 | 上传用户:gfgfiiii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,互联网正凭借其交流快捷、传播迅速的特点成为越来越多的民众表达真实想法和观点的平台,这就使得网络媒体对社会舆论的导向作用日益强大。因此,及时掌握舆情动态、积极引导社会舆论是亟待解决的问题。而为了通过海量的网络文本数据及时的掌握舆情的态势变化,必然要对这些包含不同信息的文本进行准确高效的分析整理。文本自动分类技术正是解决该类问题的关键技术之一。本文在研究中文文本分类技术发展现状的基础上,着重探讨了利用词语相关度改善特征词所携带信息量,以及非平衡数据状态下文本分类方法的改进问题。旨在提供一种更适合于处理网络文本数据的文本分类方法,以便于准确分析网络文本数据,掌握社会各方面的舆情动态,从而积极引导社会舆论。本文主要研究内容如下四个方面:(1)对现有的文本分类相关技术和网络文本的特点进行研究,分析传统分类方法在此类数据上的可用性以及不足之处,寻找相应解决办法。(2)根据对中文分词器切分后词携带信息量不足问题,设计算法Word_MI,计算待选特征词间互信息量,挖掘相邻词之间的组合可能性,将相邻词组合为较长词,以提高特征词携带文本内容信息量,改善文本分类效果。(3)分析目前分类方法在处理非平衡类数据时的不足,提出特征项非平衡概念,考虑非平衡数据集下类样本分布情况,提出特征词自动抽样算法AVG_Sampling,以及对CHI特征选择算法的不足进行分析,考虑类间样本频度,改进得到新的特征选择算法CHI_CF,并通过实验验证了算法的有效性。(4)利用上述研究成果,本文基于IBM提供的开源UIMA平台,设计并实现了面向网络舆情态势分析的网络文本分类系统,为整个网络舆情分析系统的后续开发作积累和准备。在文中详细说明了主要模块的具体实现。
其他文献
社会主义核心价值观是社会主义精神和价值体系中最根本、最重要和最集中的价值内核。从总体上看,当代大学生的思想道德状况、价值取向是积极向上的,但是也存在一些不容忽视的
从生产、科学研究、教育、法规等4个方面对改革开放30年来中国葡萄与葡萄酒产业发展状况进行了回顾,认为:(1)葡萄栽培面积逐步扩大,葡萄产量快速增加。其中,酿酒葡萄面积比例
蓝激光成像(BLI)是最先应用激光光源代替传统的氙气光源的新型内镜成像系统,可以清晰地观察到食管与胃粘膜表面的微细结构,因此可以通过观察内镜下特殊的微细结构来区分正常
9月24日,中国绿色食品2013青岛博览会组委会新闻发布会宣布,由中国绿色食品发展中心、山东省农业厅、青岛市人民政府联合主办的中国绿色食品2013青岛博览会将于10月12—15日在
从理论而言,独立董事应兼具控制职能、战略职能与资源提供职能三大职能。但与实际发挥的职能相比较,我国独立董事职能存在着期望差距。需要采取完善法律体系、加强对独立董事
目的观察针对性护理干预对预防乳腺癌患者术后PICC置管合并血栓性静脉炎的效果。方法选取医院乳腺科收治的76例乳腺癌患者作为研究对象。所有患者行乳腺癌根治术后均进行PICC
私募股权(PE)基金是指通过私募形式募集资金,并以股权或准股权方式投资于非上市企业的投资基金。我国的私募股权投资主要包括创业投资、支柱产业投资、基础产业投资、企业重
跨期决策是对不同时间点上的结果进行权衡并选择的过程,人们倾向于对延迟的结果进行折扣,这种现象叫做延迟折扣。由于成瘾人群在决策时可能偏好即刻的获益而忽略将来的消极后
建构主义理论强调以学习者为中心,充分发挥学生自主性的学习,在建构主义理论指导下的信息技术课程整合教学能够创造一个其他教学媒体和教学环境无法比拟的认知学习环境.本文
本文根据平贝母的生物系特性介绍了平贝母的选地、种植、田间管理、病虫害防治和采收等技术的研究。