论文部分内容阅读
随着网络的逐渐普及,网民数量不断增加,互联网成为了人们表达情感和获取信息的重要途径。互联网舆情也成为了社会舆情中重要的一部分,影响着社会事件的走向。近些年的网络舆情事件也使得政府机关部门、企业公司、高校甚至个人开始意识到掌握网络舆情信息的重要性。因此,舆情挖掘系统具有重要的意义。小型用户如中小型企业、高校、个人对于舆情挖掘系统有着较大需求,而市面上却没有特地服务于小型用户的舆情挖掘系统。因此,本文舆情挖掘系统立足服务于小型用户,分析了小型用户对网络带宽、硬件设备、舆情反应速度的要求,以及在这样的要求下舆情挖掘系统的技术难点。在此基础上设计了更加适合小型用户的信息采集系统、信息处理系统、信息分析系统,并加以实现投入实际应用。本文对于舆情挖掘系统的设计实现过程分为3部分:第一部分介绍了设计实现舆情挖掘系统各子系统的相关技术,其中包括信息采集系统相关的爬虫技术与链接排重技术,信息处理系统相关的正文提取技术,信息分析系统相关的中文分词技术,并比较分析了这些相关技术不同实现的优缺点,为后续的设计奠定了理论基础。第二部分根据小型用户的特点,权衡考虑网络带宽、硬件性能、舆情反应速度,设计出舆情挖掘系统的整体架构,再针对各个子系统进行设计。在信息采集系统中,本文设计了爬虫系统的各个细节。首先精选出采集目标,其次在网页采集时使用了动态更新采集频率的技术,最后设计了链接排重的方法。在信息处理系统中,本文提出了论坛首页分割的方法用于提取论坛首页的新文章链接,提出了基于模式的论坛正文提取方法用于提取论坛网页的正文,最后设计了发帖时间的提取方法。在信息分析系统中,合理分配系统时间,选择了准确高效的分词方法,为计算相关性、提取摘要提供了便利。第三部分首先介绍了在开发实现过程中对于开发环境和开源工具的选择,并阐述了本文舆情挖掘系统的功能实现,展示了实现成果。之后展示了本文舆情系统的性能,证明了其满足小型用户的需求。本文舆情挖掘系统对于一些技术的设计解决具有独创性,并满足了小型用户的需求,具有实际的应用意义。