论文部分内容阅读
近年来,我国对网络科技资源管理领域的投入逐步加大,取得了举世瞩目的成绩。为了进一步提高网络科技资源的利用率,降低网络科技资源管理的成本,我国提出了建设“国家科技基础条件平台”的长期目标。本文的研究与应用背景即为“国家科技基础条件平台应用服务支撑系统”项目下的“网络科技资源应用集成环境建设”子项目,目标是建立一个可对分布式异构数据源节点上网络科技资源数据实施有效汇集的系统。本文以资源汇集技术理论为基础,结合网络科技资源管理领域的特点和项目的实际情况,综合运用资源汇集技术的物化方法和虚拟方法,给出了基于数据仓库的模块化的网络科技资源汇集模型。与已有基于数据仓库的资源汇集模型相比,本文给出的模型综合了多种集成方法的优点,不仅提供了对异构数据库的集成,也提供了对Web科技资源数据和目录数据的集成,在网络科技资源汇集领域内具有更好的通用性。模型包括主动获取、异构数据库集成和目录融合三个模块。在主动获取模块中,基于网络爬虫技术实现对网页科技资源的抽取;在异构数据库集成模块中,采用连接中间件插件式处理的方法实现对异构数据库的识别及异构数据库中数据的集成整合;在目录融合模块中,采用设计模式中的外观模式实现本地用户目录到标准分类目录的映射。此外,本文还针对资源汇集过程中共性问题,在网络科技资源汇集模型基础上,完成了对相关标准规范原型的提取,包括用于描述元数据相关信息的元数据规范、用于形成目录服务和建立目录服务器的目录生成及服务规范、用于约定集成内容与方法的资源汇集规范,以及负责日常维护的运行服务规范。本文将所给出的网络科技资源汇集模型及提取的相关标准规范原型实际应用于网络科技资源应用集成环境建设资源汇交系统中,并加以扩展实现。在系统内测阶段,成功集成了1T数据,说明本文给出的网络科技资源汇集模型应用效果良好。