论文部分内容阅读
随着科技的进步,互联网获得突飞猛进的发展,网络舆情已经成为社会舆情的初级形态和原始来源,很多影响较大的社会舆情都发端于互联网,“网络舆情”为研究突发性群体事件提供了一个崭新视角。对网络舆情的研读、研判和研讨将能够在庞大的社会体系中创造一个清晰的聚焦镜和精确的刻度尺,以便摸清社会动态的脉搏。网络舆情预警辅助决策支持系统及其关键技术是目前网络舆情领域的研究热点,许多关键技术尚处于研究探讨之中。在国务院新闻办公室项目、北京市网络监管办项目资助下,本论文从体系结构模型、软件设计以及数据采集、负载均衡、数据抽取、数据挖掘技术等方面进行了较为深入的研究并取得了创新。概括起来主要包括以下几个方面:1、提出了网络舆情预警辅助决策支持系统模型。模型对系统按层次进行划分,实现了信息采集、抽取、加工、挖掘利用的一体化,使系统运行效率高,而且易于扩展。2、针对目前服务器集群使用的负载均衡算法所存在的缺陷,服务器可能出现较大倾斜,本文提出了一种基于粗糙集理论的动静结合的负载均衡算法。该算法避免了服务器间负载的不均衡,能有效地防止服务器倾斜的发生,提高了集群系统的整体性能。3、基于现有WEB信息抽取的不足,提出一种面向属性的自动抽取方法,该方法运用论坛概念模型(Ontology)自动构造包装器,较好的解决了现有的抽取方法准确性差、通用性不强的问题。4、本文另一重要内容是提出了在任意初始分类基础上以较高可信度实现全局最优聚类的优化算法。新算法主要包含三个过程:收缩过程、扩张过程和合并分割过程。本文以Matlab平台编制了算法软件,模拟和实例试验表明,新方法具有很好的聚类效果,能较大程度高效实现各种类型数据的全局最优聚类。5、基于关联规则分类算法,提出了改进的超规则J-度量修剪策略和CDD类别区分度改进算法。6、针对话题追踪中训练正例稀疏的问题,对传统的KNN分类方法进行了有效地改进并用于话题追踪,此外,还在话题追踪过程中加入时间窗策略,有效降低了计算的复杂度。最后的实验结果也验证了这种方法优于传统的KNN话题追踪方法。