论文部分内容阅读
互联网因其具有良好的交互性,较强的实时性等众多特质,已成为民众日常获取信息的主要渠道之一。由此互联网对社会舆论的引导与民众意识的影响地位与日俱增。网络舆情已逐渐演变为社会舆情的核心组成元素,对社会的影响力不容忽视。然而网络舆情确又不同于传统的社会舆情,具备突发性,数据量庞大且冗杂等特点,难以透过人工实时高效的抓捕网络上的舆情信息。因此相应的网络舆情监控系统应运而生。该系统对政府相关部门掌握情报,并实施高效且科学的决策提供良好的支持,能够有效的正向引导舆论,维护社会稳定与和谐。本文重点针对网络舆情中的话题检测与追踪技术进行研究与分析,在已有的技术手段上对其进行改进以达到更好应用效果。本文研究工作主要涉及以下几点:(1)提出一种基于JRPCL的增量式话题检测聚类。本文首先研究并分析了传统的Sing-Pass聚类及增量K-Medoids聚类,针对文本输入顺序敏感及初始中心点选取问题,文中最终选取改进RPCL算法产生初始类簇避免了初始中心点的选取任务。同时对一定范围内的新数据采取Prim算法进行微聚簇后再实现增量聚类。一定程度上改善了因输入顺序敏感所造成的缺憾。有效的提高了聚类算法的精度并缩短响应时间。使其适用大规模的文本聚类。最后,经实验对比,本文提出的聚类方式具有良好的实际应用效果。(2)提出一种基于动态阀值及分类器集成的自适应话题分类。本文首先研究并分析了基于时间信息的话题分类及基于反馈报道的话题分类。针对动态阀值设定及分类器集成方式等方面的不足,将距离当前报道间隔最近的报到时间作为因素加入其中,同时本文在基分类器集成中引入了选择性集成理念。降低了追踪分类的误报率及漏报率。最后,经实验对比,证明本文提出的分类方式具有更好的实际应用价值。(3)在对相关技术研究的基础之上,本文设计并构建了网络舆情话题检测与追踪系统。详细阐述了该系统各层级各模块的实现及功能,通过该系统的实际运行。证明本方案具有较高可行性。进一步验证了上述方法的有效性。