论文部分内容阅读
随着互联网的迅猛发展和网民数量的迅速增长,网站的功能也不断扩展,由此造成了人们参与网络活动的方式不断演化,即从简单的获取信息到直接参与网络内容的建设。网络逐渐成为了信息的集散地,进而发展成为民意的集散地。研究网络舆情监控相关技术对于维护国家的信息安全,保障社会的舆情稳定具有积极的重要意义。及时了解和掌握瞬息万变的网络热点话题并合理地引导网络舆论,就成为当前一个很重要的研究课题。
网络舆情监控系统是通过对互联网海量信息进行自动获取、自动分类、专题聚焦等,实现监控网络舆情的信息处理系统。用户可以通过网络舆情监控系统全面掌握当前网络舆情动态,为相关机构提供依据,以便做出正确的舆论引导,形成正确的决策。并且可以利用信息自动处理及时迅速的特点,结合人工监控体系形成快速的舆情预警响应处理机制。
本文研究了舆情监控技术的现状和不足,按照监控的需求,设计并实现了一个网络舆情监控系统IPFMS(Internet Public Feelings Monitoring System)。系统根据网络监控的特点,提出了两层监控处理方法:先根据用户设定的主题关键词用快速关键字匹配的方法过滤掉无关的主题内容,再对相关主题内容用较为复杂的文本分类方法进行处理。两层监控处理方法减轻了后续文本处理分析的强度,提高了系统的整体速度。对于IPFMS中的关键技术——文本分类处理技术,本文从特征提取角度出发,利用改进的DF (Document Frequency,文档频率) 方法,结合IG (Information Gain,信息增益) 方法进行复合特征提取,降低了特征维数。实验证明,在较少的特征维数上,分类效果有所提高。由于不同站点的不同用户群具有各自的内容风格,因此本文根据此类特征结合反馈训练的方法提出了为不同性质站点设置个性分类器的分类方式,以改进实际分类系统运行中的分类效果。
本文对实现IPFMS所需的关键技术进行的研究,并对系统进行了整体实现和效果测试,为网络舆情监控系统的进一步研究积累了经验。