基于语义相似度计算及Twitter Storm平台的微博检索研究

来源 :武汉理工大学 | 被引量 : 6次 | 上传用户:felltwo23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在国内外的飞速发展,微博作为一款在世界各地被广泛使用的互联网社交产品具有跨时代的意义。它在为用户提供开放和集中的互联网社交服务的同时,逐渐发展为具有较大影响力的新媒体。鉴于微博数据的大规模及实时的特点,如何在海量及动态更新的微博数据中为用户提供其感兴趣的内容显得尤为重要。本文所讨论的基于特征扩展和相似度计算的微博检索的内容包括:1、扩展微博短文本的内容,丰富微博的语义特征,为检索结果与检索关键字在语义上的相关性提供保障。2、利用WordNet机器语义字典的网状结构得到较准确的微博语义相似度值。3、以相似度值的高低作为检索排序的标准来模拟一个实时的微博检索过程,能够完成对关键字的微博检索,并为每一个检索到的微博提供相关微博的列表。在丰富微博语义方面,本文提出基于维基百科的语义特征扩展方法,该方法将微博中的名词作为表达微博主题的关键词,对名词进行关联拓展以丰富微博的信息内容。具体地,本文将维基百科作为语义特征的扩展源,将名词词条中的“category”模块下所包含的类别作为扩展语义特征添加到原微博中来丰富微博语义,并通过实验证明使用该语义扩展方法能够在一定程度上提高相似度计算结果的质量。在获取较高准确度的微博相似度值方面,本文利用了普林斯顿大学开发的英语词网数据库WordNet的网状结构得到基于微博语义的相似度。具体地,我们使用[37]中提出的基于路径长度的方法,同时考虑两个单词以及它们的最近公共节点在WordNet中距离根节点的路径长度(深度)来计算语义相似度,在实验中与基于VSM的余弦相似度方法做比较证明该方法能够在一定程度上提高找到相关微博的准确度与召回率。在模拟实时微博检索方面,本文研究了开源及实时的数据处理平台Twitter Storm的架构及应用,采用本地模式模拟数据的实时和分布式处理。具体地,本文定义了自己的微博检索拓扑结构,并实现拓扑结构中的每个节点功能,包括twitter数据集的预处理、节点间信息传输、多节点的相似度的并行计算与相似度表的维护、基于相似度值的检索结果排序,以及为每个检索结果提供相关微博等,从而将微博检索排序嵌入到了Twitter Storm平台上。
其他文献
随着计算机网络的快速发展,信息安全变得越来越重要。为了保证信息系统的安全性,密码技术被应用于信息系统中。在密码技术中,需要众多的算法和协议,它们都需要敌手不知道、也无法
纹理技术在影视娱乐、工业设计和虚拟仿真等方面有广泛的应用,关于纹理的研究一直是计算机图形学、计算机视觉以及图像处理领域的研究热点。基于样图的纹理合成是继纹理映射技
机动目标跟踪在军事和民用领域有着广泛的应用。国内外许多专家学者对之进行了深入的研究,取得了丰硕的成果。由于跟踪环境和目标机动性能发生变化,各种应用系统对机动目标跟踪
无线多跳网络是一种有特殊用途的对等式网络,具有无中心、自组织、可快速展开等特点。多播在无线多跳网络中扮演着重要的角色,目前已成为研究热点之一,本文主要分析和研究了无线
公开密钥基础设施(Public Key Infrastructure,PKI)是以公钥密码系统为基础、提供安全服务的通用性安全基础设施,在网络传输与信息保密过程中提供密钥的产生、分发、管理、撤
在平面上嵌入一棵树T,T的每个内部顶点的度数至少为3并且T至少有一个内部顶点。作一个圈C连接T的所有叶顶点,T的所有叶顶点组成C上的所有顶点。这样得到的平面图称为Halin图。
高斯混合(GMs)函数表示图象内容是一种流行的方法,它比直方图方法能够更有效地描述图象内容,基于GMs的距离度量算法的研究已经成为基于内容图象检索的研究热点。本文主要研究基
本文以综合风险防范领域为研究背景,围绕空间数据集成、数据共享、空间数据库引擎等关键技术展开研究,完成了空间数据和属性数据的无缝集成;设计并实现了综合风险防范数据库管理
计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大于段。蛋白质功能位点的预测因其在医学特别是在揭示生命奥秘、功能蛋白质组学研究方面具有重要意义,引起了生物和
μClinux是当前最流行嵌入式操作系统之一。专门针对没有MMU的处理器而设计,其性能稳定、移植性好、功能强大。文件系统是μClinux操作系统中重要的组成部分,在大容量Flash成为