论文部分内容阅读
互联网相关技术飞速发展,各级各部门政府都建立起了电子政务G2C平台,政民互动环节进一步加强。群众在电子政务G2C交互平台上反映的信息中隐含着大量的即将可能发生的重大事件的苗头和线索,因此把Web文本挖掘技术引入到电子政务G2C平台中来,进而收集分析民众在G2C等相关平台上所反映的信息,及时的挖掘出有关重要事件的线索,这对防范重大事件的发生有着重要意义。本文针对G2C电子政务平台的民众留言等文本信息进行特征提取和文本分类,并根据特征词条的权值和敏感词库的权值信息划分出具体的重要程度的级别,主要工作有:首先,本文在分析G2C平台中民众留言等文本信息的特点的基础上,阐述了基于G2C电子政务平台的Web文本挖掘系统(GWTMS)的设计思路,进而提出了GWTMS系统的体系结构。重点是设计了一个基于Web文本挖掘的G2C文本挖掘模型,该模型分为五个主要组成部分,即Web文本预处理模块、文本自动分类模快、文本信息分层处理模块、统计分析模块、绩效分析模块。其次,本文针对GWTMS模型中自动分类的问题,分析了自动分类的一种算法,并对其进行了改进。具体是在传统的TF·IDF特征加权方法的基础上,提出了一种新的文本特征加权方法,即TF·IDF·Ci方法。该种方法是对原有方法的改进,增加了一个能够反映类与类的区分能力的加权,提高了类与类的区分能力。实验表明利用我们改进的TF·IDF·Ci加权方法可以明显的提高分类精度,而且在某种程度上降低了对特征维数的敏感性,这对于那些对特征维数敏感的分类器尤其有用。最后,本文为了验证GWTMS模型的合理性和可行性。在自动分类的基础上设计并实现了一个文本分层处理的算法,即原始文本经过特征提取、分类之后,要给出一个重要程度的级别,从而使系统能够自动的发送给相应级别的部门或领导进行处理。还设计了一个敏感词库。敏感词库的设计、词条权值的划分是分层处理确定的基础,也就是说经过提取的特征词条和敏感词库里定义的词条的权值设定,才能够得出一个总的权值,这个总的权值就是最后划分级别的依据。通过系统实现,得到了实验结果。实验结果证明了基于本文设计的自动分类算法和分层处理算法的GWTMS模型是合理的、可行的。