基于主题模型的事件演化分析系统设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:szfsdfsdfsfasF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及多媒体技术的不断发展,新闻媒体成为人们了解事件发展的重要工具,新闻作为事件的载体,具有真实性、时效性、开放性、变动性等特征,如何从媒体发布的新闻中挖掘出事件发展各阶段信息,准确分析事件演化脉络及演化热度指数,有利于人们全面了解新闻事件,且有助于政府及新闻媒体引导和控制新闻事件的发展方向。目前,对于事件演化分析的研究主要存在以下问题:(1)新闻事件表达不全面;(2)不能有效分析事件演化方向;(3)缺少完整的事件演化分析可视化系统。本文以新华网新闻为研究数据,以新闻事件的演化脉络和演化热度指数为研究内容,在总结和分析国内外现状、梳理相关原理技术的基础上,首先改进文本表达方式,利用特征向量、语义向量、主题向量多角度表达新闻文本,其次基于改进的Single-Pass聚类算法实现新事件检测、事件话题类别标注,并通过隐式狄利克雷分布主题模型分析事件演化过程,同时,根据研究内容搭建事件演化分析系统。具体研究内容如下:(1)提出了多向量融合的文本量化表达方式。基于TF-IDF特征选取算法生成特征向量,利用主题模型生成的文档-主题矩阵作为主题向量,针对词嵌入模型生成的词向量稀疏性问题,引入Seq2Seq模型进行空间压缩生成语义向量。拼接特征向量、主题向量、语义向量形成文本向量,使得新闻文本量化表达兼具特征信息、主题信息、语义信息,为后续新闻事件分析提供全面准确的向量输入。(2)研究了基于主题模型的事件演化分析。首先针对经典Single-Pass算法存在的文本输入流顺序敏感性问题,提出双重阈值类簇划分标准的Single-Pass聚类算法,并应用于新闻话题检测与标注。其次分析话题内事件演化情况,根据阶段关键词平滑度及话题内新闻分布均匀度划分时间窗口,采用隐式狄利克雷分布主题模型分析事件发展阶段并生成事件演化脉络,同时基于热度公式计算事件演化过程中的热度指数趋势。最终实现从事件演化脉络及演化指数两方面分析事件演化方向。(3)设计并实现了事件演化分析系统。该系统以实现的算法为核心,针对新华网新闻,以新闻收集、新闻标注、新闻演化脉络、新闻热度指数为主要功能模块,设计实现事件演化分析系统,通过对事件演化分析系统的功能测试和性能测试,验证了该系统能够为用户提供全面的事件演化信息。
其他文献
自2012年开始,税务机关开展“营改增”到2018年个人所得税改革、2019年增值税再次下调税率,我国政府一直在为个人及企业降低税负,营造更好的税收营商环境。目前对于我国企业来说,企业所得税税负占据企业的成本的很大一部分比重,其直接税不易转嫁税负的特征,使得企业成为企业所得税的税负最终承担者及纳税人。因此,研究我国目前各省市的企业所得税税收负担的区域特征及空间分布情况对于我国税务机关后续进行税制改
旅游交通杭州到千岛湖的杭千高速(又名杭新景高速)公路已于2006年10月28日全线贯通,全程129公里,走杭千高速到千岛湖90分钟即可,可从杭州绕城南出口上高速然后直达千岛湖。从
在这场罕见的冰雪灾害中,郴州苏仙岭风景名胜区遭遇了建制以来最严重的自然灾害。古树名木几无幸存,电力通信设施全毁,景区旅游基础设施损失惨重。雪灾致使2622亩森林受损,其
<正>随着时代的进步和发展,英语作为当今世界通用国际语言已经成为我们生活、学习中不可缺少的交流工具。《英语课程标准》提出要"使语言学习成为学生形成积极的情感态度的过
熔融沉积成型技术FDM(Fused Deposition Modeling)是目前应用最广泛、技术最成熟的3D打印技术之一,广泛应用在教育、医疗和新材料制造等领域。但因其成型原理的限制,对某些具有悬臂、中空结构试件以及复杂自由曲面试件打印时,需要添加支撑结构才能完成成型,不仅浪费时间和材料,还会在拆除支撑后降低打印件表面质量。为了克服这些问题,本文基于FDM原理,提出了一种具有五自由度的3D打印装
目的:通过60例糖尿病足临床分析探讨糖尿病足的预防措施。方法:我院2005年1月-2008年3月收治的糖尿病足患者60例,按Wagner分级1级14例,2级18例,3级14例,4级12例,5级2例。给予胰岛素
通过2年的温室小区番茄栽培试验,研究了覆膜滴灌条件下滴灌追肥和刨穴追肥对番茄土壤水分利用率和产量的影响.结果表明,不同追肥方式对番茄产量有较大影响,滴灌追肥可以显著
在以尼泊尔为代表的南亚地区,农村社区图书馆在非政府组织READ(农村教育和发展)的帮助下蓬勃发展起来。READ模式将社区、企业、教育通过图书馆融合在一起,以图书馆为平台提供各
“可靠性”是航天产品检测性能的一个重要指标,而且电子元器件的可靠性又是整个设备可靠性的基础,是航天产品成败的关键性因素之一。本文以贴片电阻为基础,主要研究其装联后