论文部分内容阅读
在Web服务技术中,UDDI注册中心为Web服务的发布和发现提供了一个公共平台。目前,越来越多的企业采用Web服务的方式进行企业业务集成,为此建立起了相应的UDDI注册中心,但是这些UDDI注册中心却是私有的,只在企业范围内或者贸易伙伴之间使用,并不对外发布,作为Web服务倡导者的微软和IBM在2006年相继关闭了它们的公有UDDI注册中心,转为私有,本文将这一类Web服务定义为封闭式服务。然而许多厂商、开源组织和Web服务编程爱好者提供大量的工具来快速生成、部署和解析Web服务,任何企业或者个人都可以在Internet上生成、部署和发布他们的Web服务并供免费调用,本文将这一类Web服务定义为开放服务。由于部署开放Web服务的简便性以及普适性,互联网上Web服务数量的正在逐步递增。因此,全面而有效地获取部署于Internet上的开放服务并进行管理就成为一个十分重要的问题。本研究针对该问题,设计与实现了Web服务搜索引擎。论文的主要工作与贡献如下:(1)通过对一般搜索引擎的分析研究,提出了Web服务搜索引擎的体系结构,并结合主要的数据结构对系统中的每个模块进行了深入的阐述。(2)采用Google和Yahoo为二次开发提供的搜索API接口,在Google和Yahoo已经搜索到的数据进行搜索,这样大大提高了搜索效率,压缩了搜索空间。(3)就单机爬虫的效率问题,提出了分布式爬虫模型,这个模型对爬虫节点建立类似于树的层次结构,为了达到URL负载均衡的目的,通过对URL进行消息摘要产生了一个32位十六进制的字符串,采用分配算法将这个字符串分配到相应的爬虫节点上。通过实验分析,证明了分布式爬虫模型的可行性。(4)为了使爬虫聚焦到关于Web服务主题上去,我们对网页进行过滤分析,采用了向量空间模型,利用改进的TF-IDF计算权重,通过实验分析,达到了预期的效果。