论文部分内容阅读
Internet上的化学数据库是宝贵的专业资源,基于超链接分析的搜索引擎只能检索到这类数据库的Web接口页面,不能对数据库中的数据进行直接检索,因此这类资源被称为深层网(Deep Web)。本文将Web化学数据库资源称为化学深层网(Chemistry Deep Web)。为了充分有效地利用化学深层网数据资源,本论文以课题组建立的分布式Web化学数据库定向检索引擎原型系统ChemDB Portal为基础,从分析化学深层网的资源组织特点入手,研究了将XML技术用于化学深层网数据提取的关键问题:如何快速地创建健壮的提取模板。所完成的工作主要有:
1.XML技术在化学深层网数据提取中的应用研究:针对Web化学数据库检索接口可能经常改版而带来的HTML结果页面容易发生改变的问题,本文将HTML页面的描述规律与Web化学数据库数据的特点相结合,提出了优先采用化学性质名称以及具有全局唯一性的属性值作为特征信息,利用XPath核心函数构造XSLT数据提取模板的策略。强调应降低各模板之间的依赖度,以达到降低XPath表达式对HTML页面结构依赖的目的。以此作为模板创建应遵循的原则,应用到ChemDB Portal原型系统数据提取所需的XSLT文档的创建当中,取得良好的效果。
2.面向化学深层网数据提取的XSLT文档半自动编辑工具XE-ChemD的实现:创建XSLT数据提取模板要求专业人员不仅要具有化合物数据的专门知识,还必须综合掌握HTML、XML、XSLT、XPath等相关知识。同时,手工创建模板也是一件既耗时又具有一定难度的工作。能否快速创建XSLT数据提取模板也决定着ChemDBPortal的扩展和更新维护能力。为了解决这些问题,本文建立了一个专门的工具XE-ChemD。它调用JTidy对用户指定的HTML结果页面进行规范化,生成可接受XSLT转化的XHTML文档并以树视图的方式在界面窗口中显示。在源树视图指定目标数据后,XE-ChemD将自动分析其位置信息和特征,调用核心函数自动构造具有良好健壮性的XPath表达式,自动完成XSLT文档的创建与编辑,并在界面中显示编辑中的XSLT文档。此外,工具还提供了XSLT模板数据提取有效性检测和XML文档结构合理性测试的功能,为ChemDB Portal的扩展和维护提供了良好的工具。
3.ChemDB Portal原型的完善与扩展:本文重新设计了化合物索引表数据库,增加了化合物的英文别名和结构信息;扩展了客户端利用化合物标识信息进行检索的功能,通过引入JMol中间件实现了化合物结构信息的显示;利用数据提取实现了化合物索引表的自动扩展。从挖掘化合物结构信息入手,探索了Web化学数据库站点复杂数据的提取方法。这些改进,使ChemDB Portal对化学深层网数据的检索和提取能力得到了提高。目前,ChemDB Portal可正确地检索9个分布式Web化学数据库站点,并实现了各站点化学数据的有效提取。
总之,本文对XML技术在化学深层网数据提取的应用进行了研究,将总结出的数据提取模板的创建规则用于指导XE-ChemD的设计,并对ChemDB Portal进行了完善。随着功能的完善,ChemDB Portal有望成为一个强大的化学深层网检索工具,有效地促进化学深层网数据的共享和利用。