基于语义关系图的新闻事件聚类算法研究与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:weisu890221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动通信技术的发展,手机应用市场呈现日益繁荣的景象,其中新闻类应用程序为用户接收新闻信息提供了极大的便利。但是,实时更新的新闻推送使用户端获取的新闻过于冗杂,事件主题分布散乱,使用户难以在短时间内浏览自己所关注的新闻事件。因此,把新闻按照事件归类后再进行推送,将使用户端的新闻组织更加简洁有效,可以提高用户的浏览效率,所以对新闻进行事件粒度的聚类研究具有重要的现实意义。本文主要工作如下:(1)介绍本文的课题背景和研究意义,调研并总结国内外关于新闻事件聚类的研究现状;介绍新闻事件聚类的基本过程和相关技术;分析当前新闻事件聚类的不足之处。(2)针对目前的新闻事件表示方法只能有效提取给定类型的事件以及难以有效构建语义环境的不足,本文提出一种句子级的无监督事件信息提取算法,并设计一种基于语义关系图的事件表示算法。首先,从各新闻中提取与新闻事件直接相关的语义单元;然后,构建与新闻语料对应的语义环境,即根据语义单元中词项之间的关联构建与新闻对应的局部语义关系图;最后,将多个新闻对应的语义关系图进行合并,得到全局语义关系图,语义关系图表示各新闻之间的关联。实验结果表明,本文提出的事件表示算法具有较强的表现力,可以有效的反映事件关系以及事件簇信息。(3)对得到的语义关系图进行图嵌入,将结点之间的关系转化为向量之间的关系,从而通过向量实现语义关系图的聚类。针对目前图嵌入算法难以准确捕获结点间的簇信息和破坏高阶信息等问题,提出一种强化结点簇的图嵌入算法,使得在嵌入空间中簇内结点距离较近而簇间结点距离相对较远。其中针对高阶信息被破坏的问题,本文对原始图进行边采样从而构建全局子图;针对无法在嵌入空间还原簇信息的问题,本文提出一种基于triangle motif的伪聚类算法用于采集结点序列,使簇信息在嵌入后的空间中得到加强,簇间边界更具辨别力。在Polblogs等数据集上进行实验表明本文的方法优于DeepWalk、LINE和Node2Vec等图嵌入算法。(4)基于以上研究成果设计并实现了新闻事件聚类原型系统,该系统实现了新闻事件的提取与表示、语义关系图的构建和更新、图结点的向量化表示和新闻事件聚类等功能。
其他文献
通过对08-16型捣固车在高速走行时的动力传递过程中液压回路的分析,及对该液压回路中所采用的主要元件结构的分析,得出液压驱动系统是实现养路机械高速走行和作业要求的低速
新课改的不断推进使英语教学越来越受到重视,发展学生英语核心素养成为教育界普遍关注的话题。教师在教学过程中不仅要重视学生基础知识与基本技能的掌握,更要重视学生语言能
【正】 敦煌艺术有明显的地方特色,蕴含着中国西北地区多民族的审美情趣,但其主体美学意识,是中印和佛道美学意识的体融。佛道美学意识,是中印古代美学意识的突出展示,都不同
深入分析并指出了多出口流量分配的需求和存在的问题。结合实际的应用背景,指出了传统IP路由的不足。提出了解决多出口流量分配问题的方法——IP策略路由(PolicyRouting)机制
当今社会科技发展迅速,消费者的需求也正向着多样化与个性化转变,外部的环境变化给企业的生存与发展带来严峻的考验。因此,企业必须具备高度的适应能力、敏锐的识别能力、迅速的反应能力以应对新环境下所产生的各种突发事件。近年来,苏宁易购发展势头迅猛,但是在其发展过程中,其财务管理工作还存在一定的不足急需解决。本文在阐述财务管理的含义、财务管理的目标、财务管理的原则基础上,介绍了财务管理的内容和财务管理的环境
作为上层网络业务的承载者,光纤通信网络必须不断提升网络容量、改进网络架构以应对日益增长的带宽需求和业务种类。网络容量的提升主要依靠更高的信号波特率,更高阶的调制格
针对现代生物医学所面临的日益严峻的慢性疾病防治挑战,以及"生物-心理-社会医学模式"等新医学模式所面临的"多因素非线性分析"的困惑,在对其进行复杂性科学理论分析与讨论的
美国作为高等教育强国,它有着当今世界最大的、最先进的高等教育体系,吸引着世界各地的优秀人才。它现有的繁荣,与其在20世纪80年代的改革是分不开的,指导改革展开的高等教育
深度神经网络成功应用于图像处理、机器翻译和语音识别等领域。面对日益增长的数据量,分布式训练深度神经网络模型是一个有效解决方案。但是在分布式训练中还存在若干问题。第一,在系统架构方面,目前主流架构是参数服务器架构,它没有根据深度神经网络不同层的特性对计算节点进行区分,造成通信开销过大。第二,在通信数据压缩方面,目前主流方法是梯度稀疏,该方法通信复杂度过高,并且稀疏后梯度值依然较大,增加了通信开销。针
《韩昌黎诗集编年笺注》,清方世举撰。方世举(1675-1759),字扶南,号息翁,桐城人。据其《兰丛诗话》自叙云,从朱彝尊游之时,见友人顾嗣立新出之《昌黎先生诗集注》收宋人之说