论文部分内容阅读
分布在Internet上的化学数据库是宝贵的化学信息资源,化学深层网是这类数据库的集合。化学深层网检索的目标是利用一个查询,实现多个化学数据库数据的同时检索和多来源数据的集成。实现这个目标需要解决的基本问题包括:数据源发现、检索提交、数据提取、数据集成。由于深层网数据挖掘的复杂性,上述问题尚未得到较好的解决。
本论文是在课题组建立的、基于XML技术的化学深层网集成检索与数据提取原型系统ChemDB Portal基础上,对ChemDB Portal的结构和性能进行了优化、对功能进行了扩展,所完成的主要工作包括:
1.原系统在结构设计时采用了JSP Modell(JSP+Bean)的设计模式,各部分代码紧耦合,可读性较差,不利于系统的维护和功能扩展。本论文在分析了各种Web应用程序设计模式的特点后,提出采用基于MVC设计模式的Struts2框架对原系统进行重构的办法,实现了视图层、控制层和业务模型层的分离,降低了各部分代码的耦合性,提高了系统的可维护性。
2.原系统在对多来源数据的检索和提取过程中,采用了串行的模式对各个Web化学数据库进行逐一处理,运行效率较低。本论文引入多线程并行处理模式,实现了对多个Web化学数据库并行检索和数据提取;采用线程池来管理线程的调度,减少了线程创建和销毁的开销;在对线程内部各个模块性能进行系统测试和分析的基础上,对程序运行速度影响较大的处理模块进行了代码优化,提高了单个线程任务的处理速度。本论文还采用Ajax技术实现了检索结果列表页面的动态更新显示。测试结果表明,经过多项优化改造后,ChemDB Portal系统的运行效率得到大幅度的提高。
3.构建了一个集多来源数据相关知识管理、日志管理、连接池管理、维护人员管理等功能的后台管理工具。采用化学数据库元数据和数据字典对远方数据库的数据内容、数据分类、数据来源等信息进行规范性描述和管理。通过整合Struts2、Spring、Hibernate轻量级J2EE开源框架来搭建Web应用系统架构,并采用ExUS的JavaScript UI组件库来建立具有一对多、多对多复杂处理逻辑的管理页面,提高了程序开发效率。后台管理工具的建立不仅为ChemDB Portal系统的日常管理维护工作带来了很大的便利,也为实现多来源数据的集成奠定了良好基础。
总之,本论文通过综合运用多项Web应用程序开发技术,对ChemDB Portal原型系统的结构和性能进行了优化,为其建立了后台管理工具,不仅提高了系统的可维护性和扩展性,也提高了ChemDB Portal原型系统的实用性。