分布式Web化学数据库的集成检索与数据提取

来源 :中国科学院过程工程研究所 | 被引量 : 0次 | 上传用户:flyingldy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet上的化学数据库是宝贵的专业资源,基于超链接分析的搜索引擎只能检索到这类数据库的Web接口页面,不能对数据库中的数据进行直接检索,因此这类资源被称为深层网(Deep Web)。本文将Web化学数据库资源称为化学深层网(Chemistry Deep Web)。为了充分有效地利用化学深层网数据资源,本论文以课题组建立的分布式Web化学数据库定向检索引擎原型系统ChemDB Portal为基础,从分析化学深层网的资源组织特点入手,研究了将XML技术用于化学深层网数据提取的关键问题:如何快速地创建健壮的提取模板。所完成的工作主要有:   1.XML技术在化学深层网数据提取中的应用研究:针对Web化学数据库检索接口可能经常改版而带来的HTML结果页面容易发生改变的问题,本文将HTML页面的描述规律与Web化学数据库数据的特点相结合,提出了优先采用化学性质名称以及具有全局唯一性的属性值作为特征信息,利用XPath核心函数构造XSLT数据提取模板的策略。强调应降低各模板之间的依赖度,以达到降低XPath表达式对HTML页面结构依赖的目的。以此作为模板创建应遵循的原则,应用到ChemDB Portal原型系统数据提取所需的XSLT文档的创建当中,取得良好的效果。   2.面向化学深层网数据提取的XSLT文档半自动编辑工具XE-ChemD的实现:创建XSLT数据提取模板要求专业人员不仅要具有化合物数据的专门知识,还必须综合掌握HTML、XML、XSLT、XPath等相关知识。同时,手工创建模板也是一件既耗时又具有一定难度的工作。能否快速创建XSLT数据提取模板也决定着ChemDBPortal的扩展和更新维护能力。为了解决这些问题,本文建立了一个专门的工具XE-ChemD。它调用JTidy对用户指定的HTML结果页面进行规范化,生成可接受XSLT转化的XHTML文档并以树视图的方式在界面窗口中显示。在源树视图指定目标数据后,XE-ChemD将自动分析其位置信息和特征,调用核心函数自动构造具有良好健壮性的XPath表达式,自动完成XSLT文档的创建与编辑,并在界面中显示编辑中的XSLT文档。此外,工具还提供了XSLT模板数据提取有效性检测和XML文档结构合理性测试的功能,为ChemDB Portal的扩展和维护提供了良好的工具。   3.ChemDB Portal原型的完善与扩展:本文重新设计了化合物索引表数据库,增加了化合物的英文别名和结构信息;扩展了客户端利用化合物标识信息进行检索的功能,通过引入JMol中间件实现了化合物结构信息的显示;利用数据提取实现了化合物索引表的自动扩展。从挖掘化合物结构信息入手,探索了Web化学数据库站点复杂数据的提取方法。这些改进,使ChemDB Portal对化学深层网数据的检索和提取能力得到了提高。目前,ChemDB Portal可正确地检索9个分布式Web化学数据库站点,并实现了各站点化学数据的有效提取。   总之,本文对XML技术在化学深层网数据提取的应用进行了研究,将总结出的数据提取模板的创建规则用于指导XE-ChemD的设计,并对ChemDB Portal进行了完善。随着功能的完善,ChemDB Portal有望成为一个强大的化学深层网检索工具,有效地促进化学深层网数据的共享和利用。
其他文献
荧光探针因为其快速的检测效果、极高的选择性和灵敏度,在近年化学传感检测领域得到了广泛的关注。近年来,各种各样的荧光团被报道,例如香豆素、花青素、荧光素、苯并噻唑等,由于
聚乙二醇修饰技术能给药用蛋白带来多方面性能的改善,其在蛋白药物领域正在获得日益广泛的应用。本课题从PEG修饰剂的合成入手,研究了从修饰剂的合成方法,到对特定药物蛋白的修
沸石分子筛的晶粒大小及孔结构性质是影响其使用性能的重要参数。本论文工作用模板剂法和晶种法合成了不同晶粒大小和硅铝比的ZSM-5分子筛,考察了粒度和硅铝比等影响因素对ZSM
气固并流下行循环流化床反应器(简称下行床反应器)具有气固相浓度和速度径向分布均匀、返混小、停留时间短等优点,在石油化工、煤及生物质热解等领域具有广泛的应用前景。目前
铋是一种软的、碎性重金属,在当今世界上被认为是一种最安全的金属之一,由于其绿色特性因此有着不断增长的广泛用途。我国铋资源非常丰富,为加强优势工业产品铋的开发与利用,对铋