论文部分内容阅读
随着信息技术的飞速发展,互联网正凭借其交流快捷、传播迅速的特点成为越来越多的民众表达真实想法和观点的平台,这就使得网络媒体对社会舆论的导向作用日益强大。因此,及时掌握舆情动态、积极引导社会舆论是亟待解决的问题。而为了通过海量的网络文本数据及时的掌握舆情的态势变化,必然要对这些包含不同信息的文本进行准确高效的分析整理。文本自动分类技术正是解决该类问题的关键技术之一。本文在研究中文文本分类技术发展现状的基础上,着重探讨了利用词语相关度改善特征词所携带信息量,以及非平衡数据状态下文本分类方法的改进问题。旨在提供一种更适合于处理网络文本数据的文本分类方法,以便于准确分析网络文本数据,掌握社会各方面的舆情动态,从而积极引导社会舆论。本文主要研究内容如下四个方面:(1)对现有的文本分类相关技术和网络文本的特点进行研究,分析传统分类方法在此类数据上的可用性以及不足之处,寻找相应解决办法。(2)根据对中文分词器切分后词携带信息量不足问题,设计算法Word_MI,计算待选特征词间互信息量,挖掘相邻词之间的组合可能性,将相邻词组合为较长词,以提高特征词携带文本内容信息量,改善文本分类效果。(3)分析目前分类方法在处理非平衡类数据时的不足,提出特征项非平衡概念,考虑非平衡数据集下类样本分布情况,提出特征词自动抽样算法AVG_Sampling,以及对CHI特征选择算法的不足进行分析,考虑类间样本频度,改进得到新的特征选择算法CHI_CF,并通过实验验证了算法的有效性。(4)利用上述研究成果,本文基于IBM提供的开源UIMA平台,设计并实现了面向网络舆情态势分析的网络文本分类系统,为整个网络舆情分析系统的后续开发作积累和准备。在文中详细说明了主要模块的具体实现。