Web信息检索结果融合中的按位加权插入合并算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:digitalmachineu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet中,由于海量数据的多样性,在分布式数据集合上进行有效的检索就成为Web信息检索的一种必要方式.由此,引出多个检索结果的融合问题.对不同检索结果的相似度评分可能完全不可比的情况,本文给出一种新的解决方案:按位加权插入合并算法.在18GB的大规模web标准测试集上的实验证明,该算法始终能够提高综合检索性能,且分布数据集检索结果越好,则合并后性能改善越多.其中系统平均精度提高接近10%,突破了传统方法对分布数据集结果合并的综合效果总是低于使用集中数据集检索的性能局限.
其他文献
目的了解平项山市儿童锌、铁、钙、铅体内含量现状,指导临床合理使用营养补剂和排铅品。方法对幼儿园与学校健康体检的238名儿童进行血锌、铁、钙、铅4种元素检测并统计分析。
目的了解医学研究生的心理健康状况,分析心理问题产生的原因,并提出心理干预的对策。方法利用症状自评量表(SCL-90)、焦虑自评量表(SAS)及抑郁自评量表(SDS)对188名在校医学研究生进
针对N-gram在音字转换中不易融合更多特征,本文提出了一种基于支持向量机(SVM)的音字转换模型,有效提供可以融合多种知识源的音字转换框架。同时,SVM优越的泛化能力减轻了传统模型易于过度拟合的问题,而通过软间隔分类又在一定程度上克服小样本中噪声问题。此外,本文利用粗糙集理论提取复杂特征以及长距离特征,并将其融合于SVM模型中,克服了传统模型难于实现远距离约束的问题。实验结果表明,基于SVM音字
初中数学作为理论与实践相结合的学科具有一定的抽象性,一直是初中教学中的重点和难点。加上学生惰性思维的催化,让初中数学教学陷入更为艰难的境地。究其原因还是学生主观能动性的缺失造成的,在学习的过程中不乐于动脑,思考能力较弱,因此提高学生在学习中的质疑能力至关重要。让每个学生都能真正的参与到解答数学题的全过程中,从而逐渐形成良好的数学思维能力。  一、初中数学教学现存问题  由于课程改革进行的时间相对较
本文提出一种两层次无监督音频分割算法,它用于检测音频流中的说话人、环境、信道等声学特征变化点,该方法将音频分割过程分为两个层次:区域层次和边界层次,通过固定检测窗移动,它快速定位到声学特征变化点存在的区域,然后在潜在变化区域内采用T2统计值和贝叶斯信息准则(BIC)结合的方法快速确定片断边界。在区域检测层次,将修正的广义对数似然比准则应用于潜在的变化区域检测,它即无需设定阈值门限又可保证低的漏检率
本文提出了一种用于汉英平行语料库对齐的扩展方法.该扩展方法以基于长度的统计对齐方法为主,然后根据双语词典引入了词汇信息,而基于标点的方法作为对齐的后处理部分.这种扩
时长信息是韵律的重要组成部分 ,对于语音合成的自然度和可懂度都有不可忽视的作用。时长预测是建立对时长有影响的韵律环境与自然语流中音段时长的对应关系。本文引入了统计学中etasquared的概念研究汉语中韵律环境因素对时长的影响 ,设计了残差算法定量分析属性之间的交互作用 ,由此建立了多项式回归的汉语时长预测模型。实验结果表明 ,使用 5~ 6个韵律属性基本上就能够建立比较相关的对应关系 ,和使用同
在对大规模语料库进行深加工时,保证词性标注的一致性已成为建设高质量语料库的首要问题.本文提出了基于聚类和分类的语料库词性标注一致性检查的新方法,该方法避开了以前一
表现性评价是以建构主义学习方法为基础的一种对学前儿童进行评价的有效方法。表现性评价方法根据儿童的真实生活经历和生活经验,来对儿童的学习能力和身心发展进行判断的重
2002年9月国家重大基础研究计划(“973”计划)项目“图像、语音、自然语言理解与知识挖掘”(项目编号:G19980305)专家组在京举行了“自然语言处理若干重要问题学术研讨会”。
期刊