异质数据相似度学习及其在网络搜索中的应用

来源 :北京大学 | 被引量 : 1次 | 上传用户:qiaobianhongyaogqw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究异质数据相似度学习的问题,以及相似度学习在网络搜索中的应用。相似度学习在网络搜索,推荐系统,图片标注以及机器翻译等诸多应用中都扮演着重要的角色。本质上来说,这些应用的任务都可以归结为学习并利用一个相似度函数来匹配两种异质的实例。这两种实例在网络搜索中是查询和文档,在推荐系统中是用户和物品,在图片标注中是关键词和图片,在机器翻译中是两种语言下的翻译。特别的,在网络搜索中,搜索引擎是产生查询文档匹配的媒介网络上信息的急剧膨胀使人们的生活越来越离不开搜索引擎。搜索引擎的任务是对不同用户提出的查询检索相关文档,并根据其相关性大小产生文档排序。查询与文档是两种异质实例,它们的相关性由它们之间的相似度决定。相似度函数的好坏直接决定了搜索引擎性能的优劣。本文定义希尔伯特空间的内积作为相似度函数。具体来说,本文为两种异质实例分别定义一个映射函数。映射函数将异质实例映射到相同的希尔伯特空间然后映射像的内积被定义为相似度函数。在这样的定义下,本文考虑以两种方式学习异质数据的相似度:(1)先学习映射函数,然后再计算映射像的内积得到相似度函数;(2)直接学习相似度函数。在每一种方式下,本文试图解决三个问题(1)如何综合利用来自不同源的各种信息。例如,在网络搜索中,查询与文档的内容以及用户点击数据(click through data)都可以被用来学习相似度函数;(2)如何提高学习算法的效率及扩展性(scalability),使其能够处理海量的数据;(3)如何分析学习算法的泛化能力。本文首先考虑先学习映射,再通过映射像的内积定义相似度函数。特别的,本文考虑学习两个线性映射,那么最后的相似度函数由一个双线性型表示。在这种方法下,本文为线性映射定义了两种假设空间。首先,我们要求线性映射的列单位正交。在这个假设下,本文提出了一个多视角(multi-view)的学习方法。该方法能有效利用来自不同源的各种信息。随后,为了提高学习的效率和扩展性,本文又给出了一个正则化的方法。具体来说,我们约束线性映射行向量的l1范数和l2范数。这个假设保证了解的稀疏性,同时使得算法很容易并行化。最后,本文还系统地研究了相似度学习方法的泛化能力。随后,本文考虑直接定义相似度函数的假设空间来学习异质数据相似度函数。特别的,本文利用了机器学习中的核方法,提出了一种基于核的相似度学习。具体来说,本文定义了一种特殊的半正定核:S-核。一个S-核可以生成一个相似度函数的假设空间。核方法可以保证解的最优性以及它的泛化能力。为了提高学习算法的效率,本文提出了一个算法的在线近似。我们将异质数据相似度学习应用到网络搜索中,并说明本文提出的学习方法可以解决网络搜索中的词语不匹配(term mismatch)问题。我们在真实的大规模企业搜索数据和网络搜索数据上进行了实验。实验效果表明,本文提出的方法可以有效地克服词语不匹配问题,显著地改善传统方法在相关性排序,以及相似查询发现上的表现。
其他文献
本文利用了ADF单位根检验、协整检验、格兰杰因果检验等方法检验湖南地区1991年~2006年的金融发展与经济增长之间的因果关系。检验结果表明:湖南金融发展没有促进经济增长,经济
NK─360B汽车起重机断臂再接河北省四建机械化施工安装公司梁春来1问题的提出NK—360B汽车起重机是日本汽车吊(通称36t日本汽车吊)。该吊车具有吊装高度高,使用方便等特点。在实际应用中,很受欢迎
智能空间中的上下文感知为用户提供其所在环境的上下文相关信息,其中80%的信息和位置有关,因此定位问题在上下文感知中占据举足轻重的地位。智能空间中设备的许多行为都与其
通过对《单杠向前摆越成骑撑还原转体90°挺身下》教学展示课的分析、启示与运用,讨论器材在体育教学中的运用。 Through the analysis, revelation, and application of th
本文以平衡臂与平衡重总造价达到最小作为目标函数,给出了起重机尾部回转半径T的最佳值,充分地发挥了平衡臂与平衡重的作用,达到节省造价的效果。文末附有实例,实例表明,钢筋
随着无线传感器等全新的信息获取和相关处理技术的发展,移动对象数据库在多个应用领域,包括智能交通,环境监测和目标跟踪等方面得到了广泛应用。在此基础上,针对移动对象数据
海运单作为一种新的运输机制,具有提货简便快捷的特点、大大地提高了工作效率。它的出现在某种程度上解决了近洋贸易中提单晚于货物到港的问题,但由于海运单出现的时间与提单相
拥有一个健康的身体是每个家长对孩子的期望。近两年,儿童出生率较高,人们的物质生活越来越丰富,儿童口腔问题也随之而来,龋齿以及牙周炎已经成为儿童最常见的疾病。如何做到
公理模糊集(Axiomatic Fuzzy Sets,简称AFS)理论从人类感知和认识的模糊性出发,提出了研究人类认知、自然语言语义和思维逻辑的一种新方法,现已被应用于知识表示、模式识别、