一种分布式智能信息检索系统的研究与实现

被引量 : 0次 | 上传用户:yanjiajian7758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着当今科学技术的飞速发展,各类信息层出不穷,由此产生的各种科技文献、新闻资料乃至互联网上的信息可谓是爆炸式的。人们要在如此众多的信息中找到自己所需的信息,则需要强有力的搜索引擎来支持。目前,搜索引擎系统为了提高用户响应速度,扩大系统检索范围,都有向并行、分布式体系结构方向发展的趋势。 本文提出了一种全新的分布式智能检索系统的实现方法。它不同于传统分布式检索系统的解决方案,而将机器学习(Machine Learning)技术运用于检索代理(Search Broker)部分,使其拥有一定的学习能力,从而为进行有效的信息过滤打下基础。同时该系统还能够根据用户的个人研究领域和兴趣,提供个性化的用户服务。论文首先介绍了信息检索系统的三大经典模型,并给出相关领域的概念定义——大规模分布式信息系统的概念和实现原理;然后给出了评估信息检索系统的有效性(Effectiveness)的定量公式;本文还介绍机器学习在信息检索领域中的应用现状,并给出若干智能信息系统实现的方法。 在此基础上论文提出了分布式智能信息检索系统的模型。它构架在传统的分布式系统的基础之上。每个检索节点上,系统采用向量空间(Vector Space)模型来构架,并对检索节点的返回结果按相关度排序;在若干检索节点之上构建一个检索代理,其作用是分发用户的检索请求,并将各个检索节点的返回结果汇总,并进行一定形式化处理和加工,最终返回给用户。本文详细描述在检索代理部分加入一个CC4神经网络,它以节点返回的结果文档为训练样本,抽取一定数量的正例子和反例子来进行训练,通过学习,最终让神经网络判别剩余样本的相关度,过滤大量无关的信息,从而满足用户信息需求。通过大量的实验结果表明,本文提出的分布式智能信息检索系统具有相当的实用价值。
其他文献
随着科技的进步,各类互联网应用的快速发展,互联网越来越成为民众日常工作、生活、学习中I必不可少的组成部分,特别是移动互联时代的到来,让人们对网络的依赖程度越来越高。大学
据新西兰的赛尔氏的介绍,每0.1公顷猕猴桃园每年需施氮肥16.9公斤、磷肥6.8公斤、钾肥5.1公斤。在新西兰,猕猴桃园一般于9月份(相当于我国的3月份)施入约2/3的氮肥、11月份(
本文介绍了千禧年以来德国社会老年贫困数量持续上升的社会现象及其成因,并指出社会救助制度在救助老年贫困群体中发挥着越来越重要的作用。除了专门针对老年人的社会救助制
网络背景下的颓媒体发展,给传统科技期刊带来巨大挑战,同时也孕育新的希望。科技期刊应抓住新媒体发展带来的机遇,推动期刊的数字化出版,增加互动性和参与性,创新营销手段,开发新媒
<正>应该说,中国关注突发事件的应急管理是从2003年的SARS开始,而到了2008年的南方雪灾,又再次将应急管理作为一个非常关键的事情来抓。要应对如此严重的自然灾害,我们需要建
复合桥塞具有容易钻铣、钻铣时产生的碎屑轻小、不易卡钻等优点。通过桥塞坐封和射孔联作,不但缩短了水平井分段压裂的施工周期,利用其内部单流阀结构,还能实现压裂后的迅速
坐水播种机械化技术作为旱作节水农业中的一项有效工程措施,在生产中发挥着重要的作用。本课题针对2BPS-2型坐水铺膜播种机坐水后,土壤水分蒸发损失大和机组作业速度低的突出问
<正>扩张型心肌病(dilated cardiomyopathy,DCM)是一种以单侧或双侧心腔扩大,心肌收缩功能受损为特征的心肌病,病因尚未完全阐明。临床多表现为进行性心力衰竭、室性及室上型心
分析中国目前CPA行业审计职业道德缺失的原因,即CPA独立审计不独立,审计失信成本低,审计舞弊起诉难,审计违规处罚轻,审计环境污染重,提出重构CPA审计市场监管机制的设想,即完
随着IT技术发展和会计软件的不断推广,会计电算化在社会经济中的运用也越来越广泛。加强会计电算化教育将有助于适应社会需要和会计人才的培养,因此,《会计电算化》教材建设