Web服务搜索引擎研究与实现

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:xjp_djx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web服务技术中,UDDI注册中心为Web服务的发布和发现提供了一个公共平台。目前,越来越多的企业采用Web服务的方式进行企业业务集成,为此建立起了相应的UDDI注册中心,但是这些UDDI注册中心却是私有的,只在企业范围内或者贸易伙伴之间使用,并不对外发布,作为Web服务倡导者的微软和IBM在2006年相继关闭了它们的公有UDDI注册中心,转为私有,本文将这一类Web服务定义为封闭式服务。然而许多厂商、开源组织和Web服务编程爱好者提供大量的工具来快速生成、部署和解析Web服务,任何企业或者个人都可以在Internet上生成、部署和发布他们的Web服务并供免费调用,本文将这一类Web服务定义为开放服务。由于部署开放Web服务的简便性以及普适性,互联网上Web服务数量的正在逐步递增。因此,全面而有效地获取部署于Internet上的开放服务并进行管理就成为一个十分重要的问题。本研究针对该问题,设计与实现了Web服务搜索引擎。论文的主要工作与贡献如下:(1)通过对一般搜索引擎的分析研究,提出了Web服务搜索引擎的体系结构,并结合主要的数据结构对系统中的每个模块进行了深入的阐述。(2)采用Google和Yahoo为二次开发提供的搜索API接口,在Google和Yahoo已经搜索到的数据进行搜索,这样大大提高了搜索效率,压缩了搜索空间。(3)就单机爬虫的效率问题,提出了分布式爬虫模型,这个模型对爬虫节点建立类似于树的层次结构,为了达到URL负载均衡的目的,通过对URL进行消息摘要产生了一个32位十六进制的字符串,采用分配算法将这个字符串分配到相应的爬虫节点上。通过实验分析,证明了分布式爬虫模型的可行性。(4)为了使爬虫聚焦到关于Web服务主题上去,我们对网页进行过滤分析,采用了向量空间模型,利用改进的TF-IDF计算权重,通过实验分析,达到了预期的效果。
其他文献
近年来,随着Internet的发展,由于网络传播方便快捷,让越来越多的商家选择互联网作为数字产品(如MP3、数字图片、视频等)的分发销售途径。但另一方面,网络传播也使得盗版者能以低
随着网络应用范围的不断扩大,对网络的各类攻击与破坏与日俱增,网络入侵技术也在不断进步。当前,复合攻击已经成为网络攻击的主要形式之一,给社会带来了越来越大的危害。大多数的
图像分割就是根据图像中一个或多个特征把图像分成各具特性的区域并提取出感兴趣目标的技术和过程。它是计算机视觉中非常重要的研究内容,是图像分析处理的关键。图像分割结果
近年来随着多媒体技术和互联网的飞速发展,图像信息越来越得到重视。如何从大量的图像中快速、有效、准确地搜索到人们感兴趣的图像成为当前面临的重要问题,基于内容的图像检
基于视觉的运动分析是为了使计算机获得智能感知能力,使它们能够从视频里面识别物体,理解目标的行为。随着各种各样的视频数据大量涌现,计算机视觉的应用范围也越来越广,比如视觉
随着煤矿资源的日益短缺和对煤矿工作人员人身安全的越来越重视,煤矿安全的重要性越来越突出,矿山应急救援更加重要。在煤矿发生紧急事故时,如何选择最佳的避灾路线,使损失降
故障管理作为网络管理的核心功能之一,可以保证网络的可用性和可靠性,并且在一定程度上预防故障的发生。随着网络应用和网络规模的增加,及时准确发现网络中的故障变得越来越
近年来,随着战场环境仿真技术的提高,逼真的虚拟战场环境实时仿真成为作战仿真的基础。三维地形场景是虚拟战场的重要组成部分,而海量的地形数据在精度和广度上不断深化,如何
本文首先介绍了计算机考试系统的开发背景、技术支持、结构化开发的现状,然后选用ASP语言和ACCESS2000数据库开发了一套计算机考试题库管理系统。计算机考试题库管理系统是对
复杂网络是对现实世界中存在的大型复杂系统的高度抽象,具有不同于传统研究领域常见的规则网络和随机网络的统计特征,其中比较有代表性的有小世界效应,无标度特性,聚集性,网络传递