论文部分内容阅读
随着互联网的普及,国内互联网用户的不断增多,网络舆情逐渐渗透社会、经济、政治各个层面,网络虚拟群体业已成为推动互联网舆情发展不可忽视的力量。因此,基于互联网的舆情信息挖掘技术和网络群体行为研究越来越受到广泛关注。舆情是指一定时期内一定范围内的社会群体对某些社会现象和现实的主观反映。互联网舆情信息挖掘技术作为舆情主题检测的有效手段逐渐成为研究热点。然而,现有的互联网舆情信息挖掘技术在处理海量网络信息时曝露出很多问题,在网络群体行为分析方面研究尚不成熟,因此亟需在互联网舆情信息挖掘和群体行为分析的理论体系和技术方法上实现突破。本文利用网络信息挖掘的方法分析了互联网舆情信息挖掘的流程,针对网络舆情产生、传播的特点,对传统网络信息抓取和预处理技术进行了改进。此外根据舆情主题检测的特点和要求对传统的文本聚类算法进行了改进。基于社会网络分析方法对网络舆情群体的组织结构和行为规律进行了分析,并以博客圈子和论坛小组为例进行了拓扑分析和中心度分析,总结出了这两种典型网络群体的结构和行为。最后,本文基于上述研究,进行了互联网舆情监控原型系统的架构和功能设计。主要研究内容如下:网络信息抓取和预处理技术研究:在网络信息抓取阶段,结合互联网舆情信息实时更新,传播速度快的特点,本文设计了并发式增量式网络爬虫以满足网络舆情监控系统对不同网页来源的数据进行采集的需求,同时也解决了大规模网页爬行的效率问题。在信息预处理阶段,针对新闻和博客网页、BBS网页结构不同的特点采用了不同的净化技术,采用HTML Parser提取新闻和博客网页正文,根据BBS网页高度结构化的特点设计了基于DOM树和模板的BBS结构化信息提取,最终获得了可用于文本聚类的纯文本文档。互联网舆情信息挖掘算法,即文本聚类算法研究:本文改进了传统的TF-IDF公式,可以对网络信息形成的动态文本流进行特征提取,并考虑了网络新兴词汇对特征提取的影响,给新词赋予适当的权重提高了增量TF-IDF模型的质量。在文本聚类阶段,在进行文本相似度分析时加入“时间窗”的概念,大大提高了Single-pass增量聚类算法的效率,同时也降低了聚类算法对内存的消耗。基于社会网络分析的网络舆情群体行为研究:本文使用社会网络分析技术对基于某一舆情主题而聚集起来的舆情群体进行组织结构分析和行为监控,对网络群体和虚拟组织进行了拓扑分析、中心度分析和群体分析,并使用可视化社会网络工具绘制舆情群体网络图,将舆情群体的行为演变规律直观的展示给用户。在上述研究基础上,本文设计了互联网舆情监控原型系统的架构、功能模块和工作流程,为下一步进行系统实现和应用奠定了基础。