基于Meme的语义信息流探测研究与应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:linsible1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的发展及个人电子设备的普及,网络上的信息量非常的巨大,并且时时刻刻都在以惊人的速度增加着。互联网的每个用户是信息的消费者的同时也有可能成为信息的产生者。无论是较为严谨的新闻报道,还是较为随意的微博博客,其产生过程均有人为参与。热门微博可能讨论的某则新闻,而某则新闻也有可能源自于某条热门微博,但是尽管表述意思相同,但是采用的文本却有可能干差万别。这也就意味着网络上的信息在传播过程中会发生变化和变异,同时存在着大量的冗余。信息量大而冗杂,及整个互联网信息结构独立而分散,造成了人们难以有效且高效的去获取信息。  如何去分析信息在网络传播过程当中如何变化和变异的?如何保证算法的高效性,以适应大规模数据处理的要求?如何结构的组织与呈现冗杂的数据,方便用户的智慧阅读?解决这些问题便是本文研究的意义与挑战所在。将基于语义信息流[a]探测与追踪的研究,从语义的角度,而非传统字符串形似的角度出发,采用词向量及局部特征聚合描述符(vector of locally aggregated descriptors,VLAD)的融合框架去追踪语义信息流,将相似的信息聚类成一个Meme[b]。通过对Meme分析,追踪完整的语义信息流。并把一个Meme视作一个事件[c],进一步对Meme间的关联关系进行探究,建立共现图,并通过密集子图挖掘的方法来对事件进行进一步的聚合,进行情境感知的故事[d]探测挖掘,使得在知道发生了什么的同时,了解是如何发生的。  本文研究的创新点可以总结如下:  (1)借助词向量和局部特征描述符结合的语义相似度度量方法,及我们提出的独创的降维算法和聚类算法,有效且高效的从语义的角度进行信息流的探测。  (2)我们创新性的提出了从语义信息流的角度去进行故事探测,提出了从文本语义相似度,文档共现相似度,时序变化相似度三个方面去综合度量Meme之间的关联性。并定义了一种全新的密集子图结构(λ-d)-clique,并提出了对应的两种挖掘算法,并通过实验验证了定义与挖掘算法的性能。  本文是基础研究和应用相结合,在语义信息流探测研究的基础上,进行情境感知的故事探测的应用研究。实验数据均是从中文新闻网站上抓取下来的文本数据,在实验设计方面,每一个全新的定义和算法,均通过对比的方法,采用准确率,召回率,F1值等指标来验证其性能。
其他文献
随着集成电路技术的发展,芯片技术得到快速的发展,计算机技术也发展到有史以来的最高点,计算机也日益普遍成为人们生活的一种工具,它以快速、方便、易用著称。但同时它的功耗问题
随着现代网络通信技术的发展,信息安全问题日益突出。智能卡作为一种便捷的工具,在应用系统中主要扮演着两个重要的角色:身份性和安全性。这使得智能卡一方面可以方便地识别出系
随着信息技术的迅猛发展,人们在享受信息系统所带来的巨大利益的同时,也面临着信息安全问题的严峻考验。其中,重要信息系统的安全尤为重要,若其安全性受到破坏,将严重影响社会秩序
近年来,随着互联网的飞速发展,互联网广告作为互联网公司的主要盈利模式也得到了工业界和学术界的广泛关注。与传统广告不同的是,互联网广告可以利用数据挖掘,信息检索和机器学习
“脑-机接口”系统(Brain-Computer Interface,BCI)是一种全新的人机接口方式,它直接从大脑获取与外界通讯的信息,并将人类的思维状态与计算机处理系统建立关联。能够反应大脑思
可信计算技术通过从体系架构上建立攻击免疫机制,实现计算平台安全、可信赖运行。可信计算技术目前已经得到了普遍应用。随着可信计算技术的发展,其应用已经扩展到了新的平台与
虚拟现实是由计算机图形学、人机交互技术、传感器技术、计算机仿真、人工智能、计算机网络等多个学科交叉综合产生的学科。目前,在虚拟现实与人机交互领域亟需解决的问题之一
随着计算机技术的不断推广和深入,计算机中涉密数据的安全越来越得到人们的关注。如何有效的保存、读取和传输这些数据已成为科研单位、企业、军事单位等面临的关键问题。传统
随着信息技术和计算机网络的飞速发展,现实世界越来越依赖于计算机系统。防止病毒对计算机系统的破坏、黑客对机密信息的窃取,加强计算机系统的安全性,更好的保护计算机内部的数
随着多媒体技术的快速发展,视频运动对象分割技术的应用越来越广泛。它在MPEG-4基于内容的视频编码、视频临控、场景分析、对象跟踪、基于内容的检索以及交互式操作等领域中都