统计学习理论及其在信息检索中的应用

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：seaflower0000

【摘要】

：

随着互联网信息的快速增长，搜索引擎和信息检索技术成为人们获取信息的有效工具。在搜索引擎背后，则是一系列排序算法在起作用。其中最重要的一类方法是学习排序算法，也就是使用

【作者】

：

兰艳艳

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2011年期

【关键词】

：

机器学习统计学习学习排序网络搜索引擎信息检索一致性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网信息的快速增长，搜索引擎和信息检索技术成为人们获取信息的有效工具。在搜索引擎背后，则是一系列排序算法在起作用。其中最重要的一类方法是学习排序算法，也就是使用统计机器学习的方法，输出一个排序模型，用其对网页进行排序。统计学习理论就是从本质上研究统计机器学习的理论框架，以及探讨学习算法的性能的研究课题。学习排序问题在近年来，已经成为机器学习和网络搜索领域非常重要的一个研究课题，然而关于它的理论研究却仅有少数工作，究其原因，是因为，排序问题要比传统的分类问题或者回归问题更加复杂，从而导致传统的统计学习理论无法直接应用。这就对创新和发展统计学习理论提出了更高的要求。本文立足于实际需求，根据学习排序问题的内在特征，提出了学习排序问题的理论框架，并在该框架下研究了推广性和一致性的统计学习理论问题，创新并发展了传统的统计学习理论，开启了一个新的理论分支，统计排序理论。　　首先，我们发掘了学习排序问题的本质特征--查询词，创新的提出了两层的统计学习模型，将查询词看作外层独立同分布的随机变量，将文档看作是内层依赖于查询词的条件独立同分布的随机变量，从而自然的将查询词纳入到了学习排序问题的框架中，并很好的描述了学习排序问题的三种方法，单点型，点对型和列表型算法。在该框架下，我们定义了查询词级别损失和查询词级别风险，首次实现了学习目标与评价准则的一致性。　　其次，我们在该框架下，研究了学习排序算法的推广性问题。对于单点型和点对型排序算法，我们提出了查询词级别稳定性的概念，给出了一个一般的查询词级别的泛化界，我们利用该结果对信息检索中经典算法Ranking SVM和新兴算法IRSVM进行了对比，对经典算法RankBoost和其变种算法进行了分析，并使用试验验证了我们的理论结果；对于列表型排序算法，我们使用统计中的Rademacher Average理论，给出了一个一般性的泛化界，并对三种现实中常用的列表型排序算法ListMLE，ListNet和RankCosine进行了讨论。这些结果不仅可以对算法进行理论分析，同时也为改进已有算法和设计新算法提供了理论指导。　　再次，我们研究了学习排序方法的一致性问题。我们给出了学习排序问题的真实损失，讨论了最优排序的存在唯一性条件，并给出了学习排序方法一致性的一个充分条件。我们的结果比以前的工作更加广泛和一般，并且可以涵盖以前在分类问题中得到的一些结果，从内在揭示了排序问题与分类问题的关系。　　

其他文献

基于学生主体性的教学设计修订

经典的教育理念强调学生学习的主体性.2016年寒假,我认真阅读了教育家苏霍姆林斯基《给教师的一百条建议》.苏霍姆林斯基教育巨著以其经典性给人以震撼,以其全面性给人以教诲

期刊

一类级为n的整系数线性微分方程的解

本文主要研究的是齐次线性微分方程解.　　第一部分,概述本文所研究问题的近况.　　第二部分,陈述一类高阶齐次线性微分方程　　 f(k)+Hk-1f(k-1)+…+H0f=0解的级与超级

学位

齐次线性微分方程方程解超级性质

促进小学生数学实践能力的发展

在小学数学教学中,充分开展实践操作,适合儿童好动的天性,能够促进学生想象力的发展,开拓学生思维.更为重要的是,学生亲自动手参与到数学知识的探索中,有助于帮助学生理解和

期刊

兴趣体验构建意识操作空间

柔性针穿刺的几何控制理论研究

随着微创技术介入临床医学治疗，穿刺在经皮手术治疗、组织取样等手术中被广泛应用，柔性针因相对组织有足够的柔性能够灵活准确的到达传统钢针达不到的靶点位置，因此对柔性针穿刺

学位

柔性针几何控制障碍规避路径规划穿刺机制

流形上的随机分析

本论文是关于流形上随机分析的读书报告。首先我们给出对于随机微分方程解的存在性的推广，主要是在爆炸时存在的情况定义解的存在唯一性，然后给出流形上半鞅的定义，并给出流形上

学位

随机微分方程解流形上半鞅二阶椭圆算子强马氏性布朗运动

具有约束项的抛物型κ-Hessian方程解的先验估计

本文包括两部分：利用含有约束项的梯度流证明Hessian-Sobolev不等式；以及利用连续性方法证明一类含约束项的抛物Hessian方程的解的存在性。两者均需对方程的解作类似于经典Scha

学位

Hessian-Sobolev不等式抛物型Hessian方程先验估计约束项

光声层析成像的反传播方法,远场近似和有限角问题的权因子方法

光声层析成像(photoacoustic tomography)因其在生物医学上的应用而得到广泛的研究。光声层析成像综合了光波及无线电波的吸收对比度以及超声的高分辨率,而且相对于传统的X射

学位

光声层析成像反传播远场近似有限角权因子

正特征域上层的斜率(半)稳定性

设k是一个特征char(k)=P>0的代数闭域，X是k上一个n维光滑射影代数簇，()X(1)∈Pic(X)是一个丰富可逆层，FX/k：X→X(1)是相对Frobenius态射，ε∈()oh(X)是一个无挠凝聚层。本文主要研

学位

正特征域上层Frobenius态射Sun态射消失定理斜率稳定性局部正合形式层

Absolute continuity of invariant measures in weakly contractive IFS

对于自相似迭代函数系统{wi}mi=1,Ngai与Wang证明了对应的自相似测度在一定条件下的绝对连续性。本论文我们把Ngai与Wang的结果推广到{wi}mi=0,其中{wi}mi=1是自相似映射,wo

学位

弱压缩迭代函数系统绝对连续性自共形测度横截条件特征方程

普雄工务段严把“五关”抓发展

成都铁路分局普雄工务段党委在发展党员工作中严把“五个”关口,规范发展党员程序,健全了党员发展制度,确保了发展党员质量。一是严把发展对象控制关 , 努力将生

期刊

普雄发展党员党员质量五关预备党员转正发扬党内民主推优党员个人青年知识分子责任追究办法

统计学习理论及其在信息检索中的应用

与本文相关的学术论文