论文部分内容阅读
工业生物技术知识环境建设及其e-Science应用是中国科学院信息化专项项目,本文即是以工业生物技术知识环境建设为项目背景展开。
工业生物技术(Industrial Biotechnology)作为新兴的绿色化工产业,可应用于大规模生产人类所需的化学品、医药、能源、材料等,是解决人类目前面临的环境问题,资源、能源问题及可持续发展问题的有效手段。工业生物技术被誉为生物技术发展的第三个浪潮,日益受到科研单位,政府,工业企业的重视。随着工业生物技术研究的深入,学术界,产业界已经积累了大量与工业生物技术相关的生物信息数据,文献数据,企业产品数据等多种多样的信息。这些信息地址分散,格式不同,访问方式各异,形成了众多的信息孤岛,对于工业生物技术的研究工作造成了困难。因此需要一个一站式,集成化的信息检索平台。
本文即根据如上需求提出建设一个工业生物技术领域的国内外数据资源,网络信息资源的集成信息检索系统。系统主要由工业生物技术领域数据库信息的检索和工业生物技术领域互联网信息的检索两个功能模块组成。对于工业生物技术领域重要的数据库我们采用基于数据仓库的集成检索模式,文中详细阐述了数据仓库的设计模型,建立过程,元数据管理及ETL工具的设计等方面内容。在工业生物技术领域互联网信息检索我们采用基于向量空间模型的全文信息检索技术,通过应用Lucene检索框架,在系统信息的采集,分析,索引的构建,检索评分等方面,都将工业生物技术领域特点与相关信息技术相结合。
本文在行文中着重从系统的设计及实现策略方面阐述了整个系统的构建过程,文末对信息的整合方式,集成信息检索的模式进行了分析,并就一种基于Hibernate Search的系统优化方案进行了研究,对系统的进一步发展做出了展望。通过面向工业生物技术领域集成信息检索系统的建设,形成了以信息集成与服务集成为特征,以达到知识的共享为最大目的,实现对由互联网连接起来的各种信息及数据的集成检索,服务于新型科研模式的信息检索系统。