基于异构网络的微博新闻事件自动检测与摘要算法研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:hhkkpump
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,微博平台在实时传播信息方面发挥了重要作用。然而,由于其具有规模大、实时性强和数据非结构化的特点,常见的数据挖掘方法在处理它们时不再适用。为了克服传统微博事件检测与摘要方法忽视微博平台中丰富视觉和社交信息的缺点,帮助人们快速掌握本质意义的大量的微博,本文以著名社交网站Twitter上多个个热点话题约100万数据作为主要研究对象,主要研究了跨模态微博事件检测、摘要。考虑包括文本、视觉、社交、时间等多个特征,提出了基于异构网络的事件检测和摘要框架。首先在数据预处理阶段,定义严格的过滤模式去除无意义的博文和图片;接下来在事件检测阶段,使用异构网络模拟微博数据的异质特性,采用后期多模态融合实体相似性模型来组合Twitter数据的异质特征,并使用近似相似算法生成融合特征后的同构图。下一步在同构相似度图上采用改进DBSCAN的算法,融入概率模型解决子话题分割的问题,然后根据子话题的热度及新颖度对产生的聚类排序。最后,分别为话题生成文本和视觉摘要。本文的贡献如下:1、利用多模态信息构建动态异构信息网络,解决传统方法不能利用微博丰富附加信息的缺点。利用AFF函数融合多模态特征,考虑它们的语义相似性和时空接近性来区分事件。从异构网络转换为同构网络,保留关键信息的同时为之后的检测和摘要简化结构。2、为了提高检测和摘要的多样性,减少话题分割的现象,在聚类阶段,提出HRDBSCAN算法,在原有聚类算法的基础上结合概率统计方法合并相似类簇;在摘要阶段,对子话题摘要结果再聚类,确保每个子话题在摘要只出现一次。3、在包含若干真实事件的Twitter数据集上实验,实验结果证明与现有方法相比本文提出框架的新颖性和优越性。
其他文献
医学图像配准是指针对两幅医学图像,通过对其寻找某种空间变换,使得两幅图像的特征点、面或像素值达到空间上的一致。医学图像配准在临床上有非常重要的研究意义,是非常有价值的
形式概念分析(Formal ConceptAnalysis,FCA),也称概念格理论,是Wille R于1982年提出的一种有效的知识表示与知识发现工具,目前已被成功的应用到很多领域,如知识工程、机器学习、信息
在云计算、大数据环境下,负载均衡问题逐渐成为研究的焦点之一。负载均衡是实现集群最优调度的主要目标之一,计算节点的负载不均衡,就会导致云平台上任务执行效率低、严重浪
随着遥感应用逐渐趋向于定量化和精确化,高光谱解混作为高光谱遥感影像处理的关键技术之一,日益引起国内外学者的广泛关注。高光谱解混是指利用高光谱图像将混合像元分解为几种基本类型的地物光谱向量(端元),并求得这些基本地物所占比例(丰度)的技术。高光谱解混性能的提高,不仅有利于高光谱应用的发展,如地物的分类和识别、图像的解译和可视化、图像的增强和压缩等,也对地质勘探、农业监测和军事侦查等具有重要意义。本文
随着互联网技术和经济的飞速发展以及Saas概念的提出,传统的服务行业也发生了巨大的变化。面对互联网中急剧增长的服务资源提供商和服务需求客户,我们提出了面向双边资源整合(B
随着多媒体技术和万维网的快速发展,从海量图像数据中检索出来人们需要的图像信息成为一个急需解决的问题。不同于传统的基于文本的图像检索方式,基于内容的图像检索成为大规模
多核处理器已经成为目前主流的处理器,相应的多线程并发编程也成为了目前主流的编程。多线程并发程序在充分利用多核处理器带来的高运行效率的同时,相比于串行程序也带来了更多线程交错的不确定性。线程的交错执行让程序员对并发程序的理解更加困难,使并发程序存在着比串行程序更多的错误和缺陷。因此,并发程序的正确性成为了研究热点,而对并发程序正确性的验证,也成为了当下程序验证领域的热门话题。并发程序正确性的验证工作
学位
随着大数据时代的到来,出现了大量的序列数据,而当前研究的热点与难点是从其中挖掘出用户感兴趣以及有价值的信息。然而,目前大多数的研究都为非负间隙的序列模式匹配,对每个
与传统的视频监控技术相比,智能视频监控系统可以独立完成视频内容的分析工作,并对分析结果做出相应处理。智能视频监控技术涉及计算机视觉、模式识别、视频图像处理和人工智能
以视频为主的多媒体应用一直被认为是互联网的“杀手级”应用,绝大部分的互联网流量被视频内容所占据。与此同时,多媒体内容和用户的爆炸式增长也对Internet提出了更高的要求。