面向G2C交互平台的Web文本挖掘模型和方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhouhai3032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网相关技术飞速发展,各级各部门政府都建立起了电子政务G2C平台,政民互动环节进一步加强。群众在电子政务G2C交互平台上反映的信息中隐含着大量的即将可能发生的重大事件的苗头和线索,因此把Web文本挖掘技术引入到电子政务G2C平台中来,进而收集分析民众在G2C等相关平台上所反映的信息,及时的挖掘出有关重要事件的线索,这对防范重大事件的发生有着重要意义。本文针对G2C电子政务平台的民众留言等文本信息进行特征提取和文本分类,并根据特征词条的权值和敏感词库的权值信息划分出具体的重要程度的级别,主要工作有:首先,本文在分析G2C平台中民众留言等文本信息的特点的基础上,阐述了基于G2C电子政务平台的Web文本挖掘系统(GWTMS)的设计思路,进而提出了GWTMS系统的体系结构。重点是设计了一个基于Web文本挖掘的G2C文本挖掘模型,该模型分为五个主要组成部分,即Web文本预处理模块、文本自动分类模快、文本信息分层处理模块、统计分析模块、绩效分析模块。其次,本文针对GWTMS模型中自动分类的问题,分析了自动分类的一种算法,并对其进行了改进。具体是在传统的TF·IDF特征加权方法的基础上,提出了一种新的文本特征加权方法,即TF·IDF·Ci方法。该种方法是对原有方法的改进,增加了一个能够反映类与类的区分能力的加权,提高了类与类的区分能力。实验表明利用我们改进的TF·IDF·Ci加权方法可以明显的提高分类精度,而且在某种程度上降低了对特征维数的敏感性,这对于那些对特征维数敏感的分类器尤其有用。最后,本文为了验证GWTMS模型的合理性和可行性。在自动分类的基础上设计并实现了一个文本分层处理的算法,即原始文本经过特征提取、分类之后,要给出一个重要程度的级别,从而使系统能够自动的发送给相应级别的部门或领导进行处理。还设计了一个敏感词库。敏感词库的设计、词条权值的划分是分层处理确定的基础,也就是说经过提取的特征词条和敏感词库里定义的词条的权值设定,才能够得出一个总的权值,这个总的权值就是最后划分级别的依据。通过系统实现,得到了实验结果。实验结果证明了基于本文设计的自动分类算法和分层处理算法的GWTMS模型是合理的、可行的。
其他文献
数字水印技术通过在数字产品(数字图像、音频、视频等)中嵌入版权信息来证实该作品的所有权,从而为数字产品版权保护和多媒体信息安全提供了一条新的解决思路。鲁棒性数字水
由于动画素材库所涉及的素材主要是多媒体数据资源,包括图像、音频、视频、模型和运动数据等,具有非结构化、表现力强、蕴含信息量大、形象生动等特性,传统的以文本描述为特
目前各大高校都已扩大办学规模,师生数量都有明显的提高,这对于学校的行政管理能力提出了更高的要求,尤其是在日常考勤方面。现今所采取的考勤方式多采用人工收集,随着师生人
移动IP是对IP移动支持功能的补充,促使TCP/IP向无线移动领域拓展,采用移动IP来解决无线IP网络中的移动性管理成为一种必然。移动性管理是移动IP研究中的一个十分重要的问题,移动
学位
随着计算机技术的快速发展和信息化的不断深入,大型互联网企业产生的日志量也呈现出爆炸式增长。通过分析和检测日志,及时发现用户行为和系统状态的异常,对于提高用户满意度
随着人们生活信息化水平的提高,生活方式将会产生巨大的变化。伴随着物联网的发展,在室内环境中出现了越来越多的智能化设备。而2010年低功耗蓝牙技术的问世,也使得基于蓝牙
基于属性的加密体制是基于身份加密体制的延伸,也是基于模糊身份加密体制的具体应用。在基于属性的加密体制中,身份用一系列描述性的属性表示,同时添加了一个更具灵活性的访问结
嵌入式系统已经广泛地渗透到科学研究、工程设计、军事技术、各类产业和商业文化艺术、娱乐业以及人们的日常生活等各方面。随着嵌入式系统越来越广泛的应用,嵌入式系统中的
轨道交通以其运量大、耗能低、快捷、准时、安全、舒适等特点,逐步成为城市公共交通系统的重要组成部分和人们出行的首选,越来越多有条件的城市已经或即将开始进行轨道交通的
跌倒行为检测算法是行为识别的重要组成部分之一,其研究不仅对儿童和老人的安全监护有着十分重要的意义,而且在一定程度上,还能促进智能视频监控技术的发展。本文主要是对计