分布式信息检索中的若干重要问题研究

被引量 : 14次 | 上传用户：sst3562008

【摘要】

：

分布式信息检索是信息检索中的重要研究领域之一。越来越多的检索系统都利用到了分布式检索理论和技术。例如,互联网的信息需求之一就是如何整合来自于各个垂直搜索引擎返回

【作者】

：

何川

【发表日期】

：

2012年01期

【关键词】

：

分布式信息检索信息检索数据库描述数据库选择结果合并

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分布式信息检索是信息检索中的重要研究领域之一。越来越多的检索系统都利用到了分布式检索理论和技术。例如,互联网的信息需求之一就是如何整合来自于各个垂直搜索引擎返回的结果,跨语言检索也无法避免的要处理不同语种下文档相关性排序的问题,专业的专利检索可能需要同时查询多个专利库等等。同时,研究上也论证过在一定的条件下分布式检索的效果优于传统检索。分布式信息检索是同时查询多个文档数据库的技术和方法。具体来说,检索系统在收到用户的查询时,首先会按照相关性对文档数据库进行选择,把查询送往选出的文档数据库,并从中得到返回的的检索结果,最后进行合并统一返回给用户。分布式信息检索主要有三个重要的问题：如何来描述文档数据库(文档数据库的描述),针对给定的查询如何选择合适的文档数据库(文档数据库的选择),如何对返回的结果进行合并(查询结果的合并)。经过详尽的调研,本文详细的研究了分布式信息检索的若干重要问题,取得了一定的创新性成果,主要工作成果如下：1.对于文档数据库的描述问题,本文验证了基于查询的抽样算法在中文环境下的可靠性、稳定性和必要性。非协同环境下的基于查询的抽样算法是研究的重点和热点,之前的研究工作都是针对英文的标准数据集进行的,但是并没有专门研究证实其在中文环境的可靠和有效。本文在研究了基于查询的抽样算法的前提假设和基本理论之后,从实践的角度考虑,通过结构完整的逻辑清晰的实验验证其在中文环境下的可靠性和有效性,从检索流程上来说包括数据库描述层面的、数据库选择层面的、检索层面的测试和检验。一系列广泛的实验都证明了中文环境下的查询抽样技术的可行和高效,尤其是数据库描述层面的实验结果更是论证了抽样技术的可靠性、稳定性、必要性。2.对于文档数据库的选择问题,本文提出了基于判别模型的选择算法和基于主题聚类的选择算法,并验证了其有效性。该领域已经出现过很多的研究工作。大致可分为基于词频的、基于文档的、基于分类／聚类的选择方法。从判别模型和生成模型的区别来看,本文的工作包括两点：第一,考虑不同数据库之间的信息,我们提出了一种基于判别模型的选择算法。第二,考虑到数据库的语义问题,我们从理论上提出了基于主题聚类的选择算法。对于前者,我们进行理论上的探讨。而后者是我们工作的重点,因为主题聚类算法不但考虑了文档因素的影响,而且引入了数据库的语义因素,这在建模上具有明显的可解释性。同时,我们也从概率图的角度对该类模型进行了统一的分析和解释。实验证实,基于主题聚类的选择算法在已有数据集上的表现是非常有竞争力的。3.对于结果合并的问题,本文建模了加权曲线拟合算法,并证实对已有算法有明显的稳定的改善。结果合并领域的经典算法分别是CORI合并算法(CORI Merging)、SSL算法(Semi-Supervised Learning)、SAFE算法(Sample-Agglomerate Fitting Estimate)。SSL算法解决了CORI合并算法在非协同环境下的不稳定性问题；SAFE算法解决了SSL样本数量不足的问题。而SAFE算法在使用文档上也有其不足,主要有两点,其一是没有考虑文档排名不同而产生不同的重要性,其二是没有考虑文档的排名的估计偏差。针对这两点,在SAFE算法基础上,本文提出了加权曲线拟合算法(Weighted Curve Fitting,即WCF算法)。通过丰富的实验证明,与SAFE算法相比,WCF算法的优越性是一致的稳定的。在一定的环境下,我们给出了WCF算法达到最优的可能参数组合。

其他文献

湘西城市滨水空间风貌特色营造研究

随着我国改革开放和城市建设的加快,具有特色的城市滨水空间风貌成为提升城市竞争力的“稀缺性”资源,更成为生活水平不断提高的城市居民对城市的强烈诉求。针对我国滨水空间

学位

湘西滨水空间风貌特色营造

新秘书如何进行自我心理调适尽快进入秘书角色

<正> 如何尽快适应、胜任秘书工作,这是每一位新秘书尤其是刚从秘书专业毕业到秘书岗位任职的年轻秘书所面临的首要问题。笔者根据自己多年秘书工作实践和秘书专业教学以及秘

期刊

秘书工作毕业生心理调适秘书专业动手动脑

小学信息技术课程有效教学策略研究

随着科技飞速发展,人类己步入信息社会,各国对于信息技术教育的重视程度也相应提高,培养小学生的信息素养已成为信息时代公民的基本素养。信息技术课程作为一门新兴课程也得

学位

小学信息技术教育有效教学教学策略

伏安法测电阻实验误差分析及电流表内、外接的选择

高中物理电学实验中,伏安法测电阻是比较重要的一个实验,但要完成这个实验,不可避免地会碰到电流表内接、外接的问题,本文就伏安法测电阻的特点,对其误差进行分析,也对电流表

期刊

伏安法测电阻电流表内接外接

《西厢记》中红娘“助崔张结合”之动因新探

王实甫的《西厢记》中写红娘的笔墨较董解元之《西厢记诸宫调》有大幅度增加,作者巧妙地使其在崔、张结合中起重要作用,从而使之成为剧中一个非常重要的角色。传统看法是:"红

期刊

老夫人《西厢记》王实甫

外国留学生勤工助学管理工作之探讨

外国留学生勤工助学直接关系到我国招收外国留学生的环境改善和可持续发展。当前,这项工作还存在思想认识比较模糊,制度建设不够健全,管理工作严重滞后等问题,迫切需要转变观

期刊

外国留学生勤工助学管理工作

物流企业丢货控制研究

由于物流服务过程中各种差错以及丢货,造成客户投诉不断上升、企业理赔逐年增加,进而导致客户流失。这是我国物流企业目前面临的突出问题之一。研究物流丢货控制,可为物流企

学位

物流服务六西格玛管理丢货控制

商品房认购书纠纷案分析

商品房认购书广泛存在于商品房交易过程中，由于商品房价格波动幅度大，加上商品房认购书的法律性质、效力和责任等界定模糊，近些年来全国各地发生了大量的认购书纠纷。俞某与福建

学位

商品房认购书性质效力责任不安抗辩权

空调环境的空气质量恶化与空调系统内部污染问题浅析

<正> 近几十年来,空气调节理论和技术日趋完善,应用越来越广泛,相应的产品性能更加优越、可靠;使用功能更加齐全、方便;花色品种也丰富多彩;越来越多人开始在这种人为创造的

期刊

空调环境空调病空调系统窗式空调器空气质量问题浅析

二重开放、产业集聚与区域协调

一国提高对外开放水平和对内开放水平具有不同效应：提高对外开放水平,则该国内部地区间产业规模的差距先扩大后缩小,故较低或较高的对外开放水平都有利于地区间平衡发展;提高

期刊

二重开放产业集聚区域协调

分布式信息检索中的若干重要问题研究

与本文相关的学术论文