论文部分内容阅读
随着互联网及多媒体技术的不断发展,新闻媒体成为人们了解事件发展的重要工具,新闻作为事件的载体,具有真实性、时效性、开放性、变动性等特征,如何从媒体发布的新闻中挖掘出事件发展各阶段信息,准确分析事件演化脉络及演化热度指数,有利于人们全面了解新闻事件,且有助于政府及新闻媒体引导和控制新闻事件的发展方向。目前,对于事件演化分析的研究主要存在以下问题:(1)新闻事件表达不全面;(2)不能有效分析事件演化方向;(3)缺少完整的事件演化分析可视化系统。本文以新华网新闻为研究数据,以新闻事件的演化脉络和演化热度指数为研究内容,在总结和分析国内外现状、梳理相关原理技术的基础上,首先改进文本表达方式,利用特征向量、语义向量、主题向量多角度表达新闻文本,其次基于改进的Single-Pass聚类算法实现新事件检测、事件话题类别标注,并通过隐式狄利克雷分布主题模型分析事件演化过程,同时,根据研究内容搭建事件演化分析系统。具体研究内容如下:(1)提出了多向量融合的文本量化表达方式。基于TF-IDF特征选取算法生成特征向量,利用主题模型生成的文档-主题矩阵作为主题向量,针对词嵌入模型生成的词向量稀疏性问题,引入Seq2Seq模型进行空间压缩生成语义向量。拼接特征向量、主题向量、语义向量形成文本向量,使得新闻文本量化表达兼具特征信息、主题信息、语义信息,为后续新闻事件分析提供全面准确的向量输入。(2)研究了基于主题模型的事件演化分析。首先针对经典Single-Pass算法存在的文本输入流顺序敏感性问题,提出双重阈值类簇划分标准的Single-Pass聚类算法,并应用于新闻话题检测与标注。其次分析话题内事件演化情况,根据阶段关键词平滑度及话题内新闻分布均匀度划分时间窗口,采用隐式狄利克雷分布主题模型分析事件发展阶段并生成事件演化脉络,同时基于热度公式计算事件演化过程中的热度指数趋势。最终实现从事件演化脉络及演化指数两方面分析事件演化方向。(3)设计并实现了事件演化分析系统。该系统以实现的算法为核心,针对新华网新闻,以新闻收集、新闻标注、新闻演化脉络、新闻热度指数为主要功能模块,设计实现事件演化分析系统,通过对事件演化分析系统的功能测试和性能测试,验证了该系统能够为用户提供全面的事件演化信息。