论文部分内容阅读
以微博、推特为代表的新兴网络社交媒体的迅猛发展,对传统的信息检索框架提出重大挑战。新兴媒体个性化、移动化、社交化的特点催生出以短文本为主体的表达范式,而短文本的稀疏性、个性化、碎片化等特性,又使得传统检索框架性能严重下降,从而迫切要求研究新的短文本检索架构以应对短文本检索难题,解决诸如微博检索、产品推荐和广告投送等业务需求。随着微博平台的影响日益增强,这一挑战变得亟待解决。本文以微博为背景,针对短文本检索问题提出新的看法和方法。 绪论介绍了微博检索的研究意义和研究现状,总结了当前短文本检索领域的常用技术与难题,同时介绍了本文的主要研究内容。实时检索与实时过滤是微博检索的两个主要任务。短文本的稀疏性是制约微博检索性能的重要因素。 相关研究综述对短文本检索所涉及的统计语言模型、文档扩展技术做了详细分析总结,并举例介绍了新的研究方向。依据文档的表达方式,传统的检索模型可以划分为布尔模型,向量空间模型,二值独立模型和词袋模型。不同的表达模型对应了不同的检索方法。文档扩展技术普遍用来缓解文本的稀疏性,提高检索的稳定性。 第三章对基于Bayesian风险的信息检索框架,以及基于统计学习理论的结构化风险控制方法进行了详细分析与总结。在此基础上梳理出短文本信息检索中涉及的风险因素。以统计语言模型的期望风险为切入点,基于一个双马尔科夫链的统计语言检索框架,对如何控制检索风险进行讨论。通过理论分析发现,混合模型具有限定文档模型的空间、降低文档模型的函数集容量和降低期望风险的作用。我们提出假设,在给定K个合适的先验分布的情况下,混合模型可以有效的降低我们关心的文档模型的期望风险。 第四章提出了基于用户先验风险控制的短文本检索框架。论文基于所提出的风险控制框架,讨论了基于混合模型与用户先验知识的短文本检索框架,实现了短文本检索的风险控制。在TREC2011数据集上进行的验证实验表明,方法可以有效的提高话题检索的准确性与稳定性。 第五章基于所提出的风险控制框架,讨论了基于文档扩展的短文本检索框架。提出了标准化交叉熵法,实现了动态的文档扩展方法。同时在TREC LATimes数据机上的验证实验表明,标准化交叉熵是有效的界定文档相关性大小的测量指标。