【摘 要】
:
Robot是搜索引擎的关键技术之一,它已经发展为一门涉及人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等多领域的理论和技术。随着Web信息的爆炸式增长和
论文部分内容阅读
Robot是搜索引擎的关键技术之一,它已经发展为一门涉及人工智能、计算机网络、分布式处理、数据库、数据挖掘、自然语言处理等多领域的理论和技术。随着Web信息的爆炸式增长和人们对信息服务要求的提高,人们期待Robot的搜集性能越来越强。当前提高Robot性能最有效的方法是采用分布式技术,但是这会产生一些新的问题,如URL划分策略、URL匹配方式、负载平衡、扩展性和健壮性等。基于分布式技术的研究,给出了一个基于URL分级散列机制的中文Web信息搜集系统(简称UCHS系统),为了解决上述问题,在该系统中运用了新的设计方案、URL划分策略和匹配算法;针对中文Web信息搜集这一特点,提到了一些有价值的搜索策略和方法。首先介绍了课题的研究背景、意义和研究内容,给出了全文的组织结构。其次对搜索引擎及其关键部分Robot技术进行了全面的分析研究,从搜索引擎的历史、分类、工作原理、评价标准和发展趋势等五个方面对搜索引擎作了全面的阐述。再次从种类、搜索策略、更新策略等问题入手重点分析了Robot技术,并指出当前Robot技术面临的问题。在此基础上,给出了UCHS系统。针对采用分布式技术带来的新问题,提出了基于URL分级散列定位和匹配的方案,并为之设计了两种适用于中文Web信息搜集的URL散列函数。为了进一步提高中文Web信息搜集的性能,提出了基于域名的URL过滤技术、基于首页内容的中文网站识别技术、基于首页的搜索策略和基
于内容变化度的更新策略等技术和策略。基于上述研究成果,给出了UCHS系统的设计模型以及实现中的相关技术,并通过Java语言测试其具体性能。实验结果表明,UCHS系统具有很好的URL匹配性能和负载均衡性能。最后总结全文工作,指出了该文的创新点和下一步的研究工作,并展望了Robot技术的发展方向。
其他文献
本文以编织物常见的几种疵点类型为研究对象,众所周知,编织物一般都是有规律的图像,而编织物中的疵点相对于编织物来说那就是异点即不符合编织物一般规律的图案。相角变换算法能
本文介绍了一种可应用于富文本的分类方法。分类目标文本是符合OpenDocument规范的OpenOffice.org文档。本文通过分析常用的平文本分类方法在直接应用到富文本文档时表现较差
本文主要研究利用双网格迭代方法求解离散的不适定问题Tikhonov正则化后的对称正定线性方程组。论文首先研究了求解对称正定线性方程组的双网格迭代方法,其中主要介绍了两种预
随着科技的飞速发展,人们产生和搜集数据的能力也不断提高。然而,与此相对应的是,处理数据的能力并没有相应的改善。面对越来越多的数据,人们显得无所适从,造成了“海量的数
网格是继万维网之后出现的一种新型的网络计算平台,目的是为用户提供一种全面共享包括网页在内的各种资源的基础设施。在当前和未来网格的研究中,网格安全的研究始终占据着至
Voronoi图是计算几何的一个重要分支,它在计算几何理论和应用中发挥着重要作用。本文所作的工作是:在Voronoi图已有的理论基础之上,给出一种Voronoi图生成算法,并能够计算每个Vor
近几年来,随着web2.0的发展,研究网络上用户之间的关系对于理解网络的作用有着很重要的意义。社区结构作为社会网络中一个很重要的性质,是指网络中存在一些节点,这些节点之间
社区结构存在于大规模网络中,具有较高的应用价值和研究价值,已成为近年来大规模复杂网络的研究热点。但是,如何快速、准确地发现网络中的社区结构,仍是一个亟待解决的问题。现有
三维图形系统中要处理大量环境物体和运动物体,碰撞检测(Collision DetectionCD)用来检测运动物体之间或运动物体与环境物体之间是否有碰撞,从而能决定运动物体的下一步动向,
智能客户端结合了C/S与B/S架构的优点,加上面向服务的体系结构提供的高层架构支持,正成为企业应用的主流模式。本文将智能客户端的研究深入到面向服务的领域,概括了智能客户端系