论文部分内容阅读
近年来,互联网领域的一个重要事件就是社交网络的兴起和发展。社交网络已经成为人们传播信息、交流思想、结交朋友的重要媒介。不同于传统的文本检索,作为社交网络的典型代表,微博在搜索时面临着新的挑战。
微博和传统文本具有不同的特点,这使得微博搜索不能照搬传统的文本搜索方法:一方面(在内容上),微博记录的文本短,Twitter里发表的微博平均只含有十几个词项,传统基于词频统计的文档表达模型难以得到有效的估计;文本短也对反馈模型带来问题,微博反馈模型的估计和使用也有待深入研究;新元素多,现有的方法未能将HashTag等重要信息融入排序模型。另一方面(在结构上),微博作为一种新型数据源,其信息在结构上也具有不同的特点,如存在两种网络:微博记录都有作者,即丰富的用户信息,而用户又形成社交网络;微博记录间常常有回复和转发关系,这些关系与传统PageRank里的链接关系也大不相同,形成微博转发回复网络。不难看出,这些特点给微博搜索带来了挑战,同时也提供了新的可用信息。
针对微博搜索的特点,本论文的工作主要涉及微博搜索中的查询反馈、检索模型和文档表示模型等关键技术,主要工作和贡献如下:
1.针对微博记录较短的特点,本文提出一种可利用作者信息的微博记录表达模型。传统的方法基于统计有效性,适合处理更长的文本,因此本文在语言模型的基础上提出了使用作者信息对微博本身进行扩充的思想。并从作者模型和作者话题模型两个方面对微博进行扩展,采用两种平滑方式对其做了实验对比。其中使用作者信息训练话题还改善了微博话题训练中的词项的共现较少的问题,将微博记录的词项间的平均共现次数提高了11.7倍。实验结果表明,合理利用作者信息可以提高微博检索的效果。
2.本文结合微博的内容与结构特点,提出一种可以融合非文本信息的扩展的翻译模型。语言模型中的翻译模型可以在排序函数中很好的融合词的“翻译”概率,即词的语义相关性。但目前的翻译模型并没有考虑微博特有的元素,如回复、转发、URL、HashTag话题等。本文对翻译模型在微博检索中的应用做了细致分析,研究了如何对这些非文本内容做出“翻译”。实验结果验证了非文本内容在微博检索中的可用性。
3.本文提出一种基于核方法的微博检索模型,对反馈方法做了改进。通常的反馈和负反馈方法将相关和不相关文档各视作一个团(各自估计一个模型),根据这两个模型来修改查询。而在微博的初步检索结果中(反馈文档)不相关文档间一般各不相同,甚至相关文档也不一定相似,反馈文档会形成很多“团”。因此本文提出使用多模型的方案来对反馈文档的各个团进行建模,从而做到了对其更细致的划分。该方法需要标注,可以应用于在线的微博检索环境或者交互式检索当中。也因为它不仅考虑正反馈也考虑负反馈,还考虑正文档和负文档间的不同,因此可以达到更好的检索效果。实验结果表明,采取不同的团中心选取方法和使用不同的核类型都将产生不同的检索效果。