论文部分内容阅读
随着互联网在国内外的飞速发展,微博作为一款在世界各地被广泛使用的互联网社交产品具有跨时代的意义。它在为用户提供开放和集中的互联网社交服务的同时,逐渐发展为具有较大影响力的新媒体。鉴于微博数据的大规模及实时的特点,如何在海量及动态更新的微博数据中为用户提供其感兴趣的内容显得尤为重要。本文所讨论的基于特征扩展和相似度计算的微博检索的内容包括:1、扩展微博短文本的内容,丰富微博的语义特征,为检索结果与检索关键字在语义上的相关性提供保障。2、利用WordNet机器语义字典的网状结构得到较准确的微博语义相似度值。3、以相似度值的高低作为检索排序的标准来模拟一个实时的微博检索过程,能够完成对关键字的微博检索,并为每一个检索到的微博提供相关微博的列表。在丰富微博语义方面,本文提出基于维基百科的语义特征扩展方法,该方法将微博中的名词作为表达微博主题的关键词,对名词进行关联拓展以丰富微博的信息内容。具体地,本文将维基百科作为语义特征的扩展源,将名词词条中的“category”模块下所包含的类别作为扩展语义特征添加到原微博中来丰富微博语义,并通过实验证明使用该语义扩展方法能够在一定程度上提高相似度计算结果的质量。在获取较高准确度的微博相似度值方面,本文利用了普林斯顿大学开发的英语词网数据库WordNet的网状结构得到基于微博语义的相似度。具体地,我们使用[37]中提出的基于路径长度的方法,同时考虑两个单词以及它们的最近公共节点在WordNet中距离根节点的路径长度(深度)来计算语义相似度,在实验中与基于VSM的余弦相似度方法做比较证明该方法能够在一定程度上提高找到相关微博的准确度与召回率。在模拟实时微博检索方面,本文研究了开源及实时的数据处理平台Twitter Storm的架构及应用,采用本地模式模拟数据的实时和分布式处理。具体地,本文定义了自己的微博检索拓扑结构,并实现拓扑结构中的每个节点功能,包括twitter数据集的预处理、节点间信息传输、多节点的相似度的并行计算与相似度表的维护、基于相似度值的检索结果排序,以及为每个检索结果提供相关微博等,从而将微博检索排序嵌入到了Twitter Storm平台上。