排序学习训练样本降噪方法的研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:karstlwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索(Information Retrieval)是互联网和企业应用的重要研究课题之一。信息检索是处理海量文本的重要手段,其主要解决从大量文档集合中找到与给定的查询(Query)请求相关的、恰当数目的文档子集的问题。近年来,研究人员为了提高信息检索的性能,将机器学习算法引入信息检索中,从而形成一个新的研究领域——信息检索排序学习。排序学习已广泛应用于Twitter搜索加权方法,其基本思想是将排序问题转化为一个分类问题和回归问题。由于大多数的排序学习方法是基于监督学习,而其有效性会被包含低质量“噪声”的训练数据所影响,因此当前排序学习算法鲁棒性研究是解决这一问题的重要手段。已有的工作研究表明,相同的排序学习方法的性能在不同的数据集上对噪音敏感度高,虽然模型改变是导致性能下降的直接原因,但模型是从训练集学习到的,因此我们研究重点在于如何提高训练数据质量。  信息检索模型是表示文档,用户查询以及查询与文档的关系的框架,其主要分为布尔检索模型、向量空间模型、概率检索模型、语言模型、基于机器学习和数值方法的算法模型等。针对训练数据噪声影响的根本原因,本研究对排序学习训练样本降噪方法(Trainingset Noise Reduction,TNR)进行了深入研究,探讨了现有提高训练数据质量的方法,提出训练样本降噪方法框架,包括模型特征选择、模型训练、模型测试三个模块。继而提出了一个简单而有效的降噪原型系统:通过学习查询质量分类器(Classifier),自动选择每一个查询基础上的“高质量”训练数据。  本课题主要在Twitter及Letor2.0数据集上进行实验验证。在Twitter数据集上,本研究提出的RankSVM+与传统的RankSVM算法进行比较,得到TREC2013的官方评测标准MAP为0.3528,提升幅度为13.26%。在Letor2.0中TD2003数据集上,RankSVM+与Geng等人提出的OptPPC算法[16]进行比较,在NDCG@5和NDCG@10两个评测标准下分别提升8.62%和7.61%。  本文的主要工作及贡献包括以下四方面。第一,总结了排序学习训练样本降噪方法国内外研究现状,现有成果以及关键技术,指出现有排序学习训练样本降噪方法存在计算复杂度高、融合查询特征的质量低等问题。第二,提出了一种基于分类器的排序学习训练样本降噪模型,能降低低质量训练数据对排序结果的负面影响,减少人工标记的花费成本。该模型的核心在于查询质量分类器的训练学习。首先,在同一查询下用基础模型和排序学习算法分别得到MAP,以两个MAP的差值△MAP做为每个Query的检索效果增益;然后,用逻辑斯特回归训练一个弱线性函数作为查询质量分类器,该分类器用以决定某查询是否被包含在训练集中。第三,设计和实现了排序学习训练样本降噪原型系统。该系统主要分为三大模块,即特征抽取模块、模型训练模块和测试模块。一方面区分了高质量训练集和低质量训练集,将可能存在的噪声暴露出来,另一方面兼顾了排序学习中的各种特性。第四,对本文提出的排序学习训练样本降噪原型系统在Twitter和Letor2.0数据集上进行了验证评测。实验结果显示我们所提的方法可以显著地优于传统RankSVM算法以及OptPPC算法。实验证明,本文提出的系统模型计算复杂度低,并以基于分类的方法更高质量的融合了查询特征。  为了提升训练样本降噪方法稳定性,在未来的工作中,我们将考虑基于文档排列级别的准则,这种角度可以更加适用于Listwise的排序学习算法。另外,对于特征噪声数据的处理中,本研究一方面考虑进一步深化特征选择方法的研究,另一方面,本研究也将探索处理特征噪声的新技术。
其他文献
面对日益增加的网络带宽和负载,如何提高网络安全程序的性能是当前安全系统所面临的挑战.Peder Jungck等人在[JSO4]提到,网络带宽与当前处理器能力矛盾是这一问题的根本.因此
随着半导体工业的发展,微处理器的集成度和工作频率在迅速的提高.与此同时,微处理器芯片内部的时钟偏差问题也越来越严重,确保电路运作的正确变得越来越困难;此外微处理器与
下一代互联网络演进的一个重要趋势是IP网络将成为语音和视频等应用的主要承载.VoIP(Voice over IP)是一个重要的语音应用.由于语音传输的机制不同,VoIP有着传统电话无法比拟
随着网络带宽的飞速增长以及各种应用不断涌现,同时具有高性能和可编程能力的网络处理器,得到了越来越多的重视和应用.网络处理器通常采用多个可编程的处理引擎以及专门协处
机群已经成为主流的并行计算机体系结构,但是随着机群系统规模的不断扩大,机群系统的可靠性却呈下降趋势.深入研究机群容错技术,提高机群系统的可靠性和可用性已经成为当前机
随着网络通讯技术的迅速发展和个人消费电子产品性能的不断提高,面向网络的视频应用正变得越来越普及.在互联网这种复杂异构网络环境下,网络视频应用面临着不同用户的传输带
随着计算机部件的价格下降和性能提升,机群系统凭借其低廉的成本和卓越的性能迅速成为高性能计算领域的热点研究方向.机群系统各商业部件间松散耦合的特性使得机群的管理需要
MPEG-2是一个应用广泛、十分成功的视频编码标准,现存大量视频数据是以其进行压缩编码.最新国际视频编码标准H.264/AVC采用先进的编码技术,具有优异的编码性能和取代MPEG-2的
随着信息技术的不断发展,现代社会对信息的需求量越来越大,大屏幕显示设备由于其固有的信息容量大且便于信息共享的特点,广泛应用于家用电视、商业展示、视频娱乐、工程控制
随着互联网的飞速发展,以互联网、信息技术为基础的在线学习变得越来越普遍。在线学习可以克服地域差异,并且可以让用户根据自身情况,自主灵活的安排学习时间,极大方便了用户