微博事件的图文摘要生成方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhanghao2018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个新兴崛起的研究领域,基于Twitter、新浪微博等社交媒体的事件挖掘研究正受到越来越多的关注。针对社交媒体数据流的噪声数据过滤、事件识别和事件摘要生成技术已成为重点研究内容。目前已有的方法主要对文本进行事件摘要分析,然而图像具有传递信息更快捷更直观的特点,如何利用图像对事件进行视觉描述同样值得研究。根据微博数据的特点,提出了基于微博事件的多模态关联的图文摘要生成算法。采用了基于主题的图排序算法用于计算事件相关度,综合分析了文本-文本、图像-图像和文本-图像三种类型关系对于事件识别的作用。同时,在考虑事件相关性和信息多样性方面引入基于随机游走的图排序算法用于微博数据多样性重排,得到事件图文摘要。基于微博数据流的事件分析面临较多挑战,微博存在大量的干扰数据,这在很大程度上制约了事件识别的效果。此外,传统的文本挖掘技术已经不再适用,因为微博设置了文本字数的限制,同时还存在大量的拼写错误,以及非正式的口语化文本。为了处理这些问题,采用了基于潜在语义主题模型的文本扩展方法,对文本运用主题模型发掘其潜在主题,并利用高频率主题词作为文本的特征空间对微博进行语义扩展。同样的,微博中的图像也存在诸多问题如重复图像,针对这一问题运用了感知哈希方法进行处理。除了重复图像问题,微博图像的主要问题是存在自拍、表情、二维码等干扰图像,为此采用了支持向量机分类器用于过滤该类不适合用于事件摘要的无内容图像。通过在搜集的真实微博数据上进行实验,其结果表明本论文的图文摘要生成方法对比于传统的聚类算法具有更高的召回率和准确率。
其他文献
互联网和电子商务的发展,产生了大量的数据,从而导致网络资源的信息过载。当搜索引擎技术已经无法解决信息过载问题时,推荐系统应运而生。常见的推荐系统有:协同过滤推荐、基
人脸识别技术是计算机视觉和模式识别等领域非常活跃的一个研究方向。传统的人脸识别算法多假设人脸数据集具有全局的线性结构;而随着数据分析技术的发展,人们发现高维数的人脸
随着网络的日益发展和普及,信息量爆炸性地增长,每一秒都会产生大量的新的数据并传播于网络。BBS应运而生并逐步发展渐成为人们发表言论、表达思想的重要平台。如何通过对BBS
纹理图像分割在遥感、医学图像处理、计算机视觉及基于基于内容的图像检索等许多应用领域中具有广泛的应用。纹理分割是图像处理过程中一个重要步骤,是实际应用中图像分析的
光线跟踪是生成真实感图形的主要算法之一。本文总结对比了CPU与GPU光线跟踪算法优劣,讨论了现有基于GPU光线跟踪加速算法中均匀网格、KD-Tree及层次包围盒(BVH)的遍历方法,并
随着信息和网络技术广泛而深入地渗透到商业、金融、科研、教育、军事以及人们日常生活的各个领域,网络和信息安全对人们生活和国家安全的影响越来越重要。防火墙技术是较早发
用传统遗传算法处理规模越来越大,搜索空间越来越复杂的优化问题时,由于需要较多的个体数量和大量的计算,进化速度缓慢难以达到适时的要求,所以遗传算法传统的串行处理方式就显得
随着web2.0的快速发展,用户变成了互联网内容贡献的主力,大量用户产生的主观性文本充斥了人们的视野。基于这些主观性文本的情感分析成为了近些年的研究热点。情感词典的构建
随着企业业务过程的复杂程度和参与者的规模急剧增长,各业务间的逻辑关系变得更为复杂。采用工作流管理技术建立工作流模型,描述复杂的业务过程信息,可以实现对复杂业务过程
信息化管理系统是促进现代企业发展有利工具,信息化管理系统涉及多个领域的理论和技术,如数据存取技术等,因而具有综合性和挑战性。现在企业的信息管理系统大多都建立在两层