论文部分内容阅读
随着互联网技术的不断发展,网络已经不仅仅是一个为用户提供信息服务的平台,特别是Web2.0技术的发展和SNS服务的出现,让用户真正成为了网络的参与者。网络成为人们生活中不可或缺的一部分,网络生活和社会生活越来越趋向于统一,网络中的人际关系再也不是虚拟的、不确定的,而是依据人们真实的社会关系而建立起来的。人们在网络上使用微博、博客、日志、论坛等各种网络服务记录生活、交流信息,发表对政治、经济、社会的观点和看法。互联网逐渐成为了网民自由表达情感的新平台,伴随着我国网民数量和网页数量的激增,网络舆论渐渐成为了社会舆论的主导力量,但是由于网络舆论存在着爆发性、传播性、虚拟性,网络舆论导向的任何偏差都会对正常的社会舆论产生了不利的影响,甚至影响社会的稳定,由此网络舆情监测系统应运而生。
本课题主要针对舆情监测系统相关的We信息挖掘、Web信息采集、网页预处理以及舆情分析中的情感分析进行了研究。系统主要定位于Web信息挖掘中的Web内容挖掘,通过从Web内容中获取有用的知识来进行情感的分析。系统的设计场景为,不同的用户有不同的监测需求,用户需要监测的领域可能是某些社会时政,可能是某些特定行业,甚至是某些特定商品的口碑信息,并且用户希望系统能够对内容进行情感分析,给出或褒义、或贬义、或中性的判断。针对这个场景,系统设计了一套灵活的、能够支持便捷扩展的Web信息采集模块,该模块包含一套脚本库,能够满足用户在一个或多个特定网站中进行信息采集。在网页预处理模块的实现中,本文对现有的网页去噪、网页去重和网页特征提取技术进行了研究,在功能实现的过程中对部分技术进行了改进。在情感分析中,采用了简单的词组赋权方式进行判断,并且对情感分析算法的运行效率进行了改进。