论文部分内容阅读
信息检索(Information Retrieval)是互联网和企业应用的重要研究课题之一。信息检索是处理海量文本的重要手段,其主要解决从大量文档集合中找到与给定的查询(Query)请求相关的、恰当数目的文档子集的问题。近年来,研究人员为了提高信息检索的性能,将机器学习算法引入信息检索中,从而形成一个新的研究领域——信息检索排序学习。排序学习已广泛应用于Twitter搜索加权方法,其基本思想是将排序问题转化为一个分类问题和回归问题。由于大多数的排序学习方法是基于监督学习,而其有效性会被包含低质量“噪声”的训练数据所影响,因此当前排序学习算法鲁棒性研究是解决这一问题的重要手段。已有的工作研究表明,相同的排序学习方法的性能在不同的数据集上对噪音敏感度高,虽然模型改变是导致性能下降的直接原因,但模型是从训练集学习到的,因此我们研究重点在于如何提高训练数据质量。 信息检索模型是表示文档,用户查询以及查询与文档的关系的框架,其主要分为布尔检索模型、向量空间模型、概率检索模型、语言模型、基于机器学习和数值方法的算法模型等。针对训练数据噪声影响的根本原因,本研究对排序学习训练样本降噪方法(Trainingset Noise Reduction,TNR)进行了深入研究,探讨了现有提高训练数据质量的方法,提出训练样本降噪方法框架,包括模型特征选择、模型训练、模型测试三个模块。继而提出了一个简单而有效的降噪原型系统:通过学习查询质量分类器(Classifier),自动选择每一个查询基础上的“高质量”训练数据。 本课题主要在Twitter及Letor2.0数据集上进行实验验证。在Twitter数据集上,本研究提出的RankSVM+与传统的RankSVM算法进行比较,得到TREC2013的官方评测标准MAP为0.3528,提升幅度为13.26%。在Letor2.0中TD2003数据集上,RankSVM+与Geng等人提出的OptPPC算法[16]进行比较,在NDCG@5和NDCG@10两个评测标准下分别提升8.62%和7.61%。 本文的主要工作及贡献包括以下四方面。第一,总结了排序学习训练样本降噪方法国内外研究现状,现有成果以及关键技术,指出现有排序学习训练样本降噪方法存在计算复杂度高、融合查询特征的质量低等问题。第二,提出了一种基于分类器的排序学习训练样本降噪模型,能降低低质量训练数据对排序结果的负面影响,减少人工标记的花费成本。该模型的核心在于查询质量分类器的训练学习。首先,在同一查询下用基础模型和排序学习算法分别得到MAP,以两个MAP的差值△MAP做为每个Query的检索效果增益;然后,用逻辑斯特回归训练一个弱线性函数作为查询质量分类器,该分类器用以决定某查询是否被包含在训练集中。第三,设计和实现了排序学习训练样本降噪原型系统。该系统主要分为三大模块,即特征抽取模块、模型训练模块和测试模块。一方面区分了高质量训练集和低质量训练集,将可能存在的噪声暴露出来,另一方面兼顾了排序学习中的各种特性。第四,对本文提出的排序学习训练样本降噪原型系统在Twitter和Letor2.0数据集上进行了验证评测。实验结果显示我们所提的方法可以显著地优于传统RankSVM算法以及OptPPC算法。实验证明,本文提出的系统模型计算复杂度低,并以基于分类的方法更高质量的融合了查询特征。 为了提升训练样本降噪方法稳定性,在未来的工作中,我们将考虑基于文档排列级别的准则,这种角度可以更加适用于Listwise的排序学习算法。另外,对于特征噪声数据的处理中,本研究一方面考虑进一步深化特征选择方法的研究,另一方面,本研究也将探索处理特征噪声的新技术。