论文部分内容阅读
目前,对于Internet上零散分布的海量学科资源,缺乏一种方法对它们进行有效的聚合。搜索引擎在底层使用爬虫技术发现了大量的Web资源,但是无法揭示出资源之间的联系并对资源的质量进行评价;传统的信息发布门户可以通过人工分类的方法聚合Internet上的部分资源,但是其效率低,维护成本高。为了解决上述问题,重点学科网格资源聚合系统NKDG_RAS(National Key Discipline Grid Resource Aggregation System)提供了一种基于网格和Web 2.0的资源聚合平台,并以此为基础,通过用户的社会性贡献和协同过滤实现了资源聚合的目的。NKDG_RAS系统在结构上可以分为三层:信息层获取分散在Internet上的单个资源,包含了分布式RSS爬虫服务用于抓取以结构化数据形式发布的学科资源,基于Web的文献信息抽取服务用于获取以半结构化数据形式出现的文献元数据,用户贡献策略用于收集以无结构化数据形式存在的Web页面;汇聚层构建在信息层之上,其中的标签服务通过标签关联度算法揭示了资源之间的联系,资源推荐服务通过基于用户兴趣和资源质量的推荐算法帮助用户迅速发现可能与自己需求相吻合的最新资源,资源导入服务使用户能够将其它平台和应用上的数据导入至重点学科网格中,重复资源探测服务帮助用户发现与自己收藏了相同资源的其他用户;应用层是最上层,通过可扩展的国际化机制实现了对多语言的支持,RSS订阅服务为其它应用提供了重点学科网格中资源的mashup。采用PHP语言和JAVA语言实现了NKDG_RAS系统,并对系统进行了测试分析。功能测试结果表明系统的功能完备,各项服务工作正常;性能分析主要对比了改进前后的RSS爬虫服务和基于Web的文献信息抽取服务。性能测试结果表明,当RSS爬虫服务从中心服务器中分离出去之后,系统支持的并发用户数增加了50%,服务响应时间减少了51.08%。当基于Web的文献信息抽取服务增加缓存机制之后,且命中率为0.5时,服务响应时间减少了42.63%。