论文部分内容阅读
随着Web2.0技术的迅猛发展,互联网已经不仅仅是一个信息获取途径,更重要的,它已成为人们发布信息的平台。微博服务,作为一个新兴的互联网应用,受到用户的追捧。由于用户的广泛参与,微博上的信息呈现爆炸式增长,同时信息的结构也变得更加复杂和多元化,这使得微博上的信息检索变得越来越困难。传统的信息检索技术虽然在网页检索中取得了巨大成果,但却无法直接应用到微博上,这是因为,微博上的关系结构相比网页的链接关系要复杂很多,而且微博的内容短小,主题杂乱,不适合基于字词的简单匹配和查找。 为了解决微博上的信息检索问题,本文提出了一种基于图排序的个性化主题搜索算法。该算法将微博中的实体进行分离,得到微博,用户以及字词三种实体,通过三种实体之间的关联,建立微博的图模型。在微博图模型基础上,算法将三种实体及其关系结构映射到一个最优的语义空间,新的语义空间能够最大程度的保持对象在原始空间的关系,使得原始空间中关系越紧密的对象在新的语义空间中距离更近。在新的语义空间中,可以对不同的用户和查询词,快速找到主题相似的微博,从而提供个性化的主题搜索功能。 在微博主题搜索算法中,需要建立微博和字词之间的联系,本文通过主题建模的方法,同时结合微博的结构特征以及用户的语法习惯,提出了一种带偏置的词排序算法,该算法可以有效的提取微博字词,从而更好的支撑微博的主题搜索。 最后,本文对微博的主题搜索算法和字词提取算法分别作了有效性验证,实验结果证明了上述两个方法较以往的算法在微博数据上效果有显著提升。