面向多领域非协作环境的分布式检索算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:gggoshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今互联网信息量已然十分庞大,且其中内容的主题纷繁复杂,用户多依赖于搜索引擎来获取信息。不同的搜索引擎关注的领域不同,索引的主题千差万别,用户的一次搜索往往需要在多个搜索平台间切换,由此增加了其搜索成本。分布式检索技术为此提供解决方案,但实际的分布式检索环境大多是非协作环境,即搜索引擎仅能为分布式检索系统提供极其有限的描述信息,这为分布式检索带来了极大的挑战。本文重点研究非协作环境下多领域分布式检索系统的关键技术,包括垂直领域选择、资源库选择和结果融合算法等,设计相应的算法框架。本文研究工作如下:(1)在垂直领域选择算法上,本文提出了基于LDA模型构造垂直领域描述和查询词描述的算法框架,并研究了在不同垂直领域描述方法下垂直领域选择算法的效率。在FedWeb基准数据集上的实验结果显示,该算法与以往的垂直领域选择算法在指标nDCG@10和nDCG@20上均有较大提升。(2)在资源库选择算法上,本文在利用垂直领域选择结果的基础上,结合了资源库选择因子和LDA模型,提出了基于多特征评分的垂直领域算法框架。该算法的实验结果表明,其结合多特征评分的方式能有效填补单特征评分的缺点,并大幅提升算法效率。(3)在结果融合算法上,本文提出了基于LR和GBDT的结果融合算法,该算法提取了文档、资源库和垂直领域三个维度的特征,并分别采用LR和GBDT模型进行模型训练和结果预测。实验结果表明其与以往的基于线性融合的结果融合算法对比有同等的算法性能,但该算法无需人工调参,且多维度特征能更好反映数据的真实性,具有更强的实用性。本文最后对上述三方面算法框架进行了分析,并根据其中不足制定了后续优化方案。
其他文献
多媒体技术的迅猛发展使得高清数码相机和图像,视频编辑软件的实际应用愈发普及,人们可以快捷,方便地对视频的内容进行处理,包括增加,删除和修改视频中的物体,并且通过对边缘
背景:帕金森病(Parkinson Disease,PD)是一种多发于中老年人的慢性、进行性中枢神经系统变性疾病,其典型的临床表现为震颤、肌强直、动作迟缓、姿势平衡障碍。同时还存在一些
背景胆管细胞癌可以依据肿瘤位置分为肝内胆管细胞癌和肝外胆管细胞癌两种。发生在远离左右肝管汇合部肝脏内部的肿瘤称为肝内胆管细胞癌(ICC),ICC是由二级胆管及其分支被覆
随着大数据时代的到来,数据中心被大量建设,催生了大量语音、视频、娱乐等数据的传输需求,人们对光纤通信系统的速率和容量的要求进一步提高。在频谱资源有限的情况下,提高频
目的探索磁共振扩散加权成像表观扩散系数(ADC)值在预测及早期评估肝转移瘤化疗效果中的作用。方法收集50例肝转移瘤患者,分别于化疗前3天、化疗后1周、2周及4周进行常规磁共
高分辨率的图像意味着有高密度的像素,能够提供更多细节,不但能较好地满足计算机应用需求,而且能更好地满足人们的视觉感官需求。在实际应用中,我们可以通过硬件和软件两方面
无线通信技术的飞速发展,给人们的生活带来方便的同时也会带来了一个棘手的问题:无线电频谱可分配的资源将越来越匮乏。认知无线电技术被认为是提高频谱利用效率的一种方法,
本翻译报告的原文是《邓小平社会建设理论研究》(陕西人民教育出版社2015年3月出版)第六章内容:邓小平对优化社会结构的探索。该章节包含四个小节部分,包括优化区域结构,优化
目的回顾性分析183例中年肺癌患者(45-60岁)的病理特点对预后的影响。方法回顾性分析183例45-60岁肺癌患者的病历数据资料,分析性别、肿瘤部位、手术方式、分化程度、胸膜侵
在现有的高考制度之下,地理学科是高中文科学生的必选科目。由于地理学科兼有理科性质的学科属性,文科学生在地理学习过程中会存在较大的学习难度。由此,文理分科后的地理教学衔接在高考备考学习阶段中就显得尤为重要。在文理分科的起始阶段如果实施了及时有效的地理教学衔接,对高考地理学科目标的实现有重要的作用,对学生学习地理这一学科来说是具有很多的好处的。本文在论文中采用各种研究方法。比如文献研究法和针对学生的课
学位