论文部分内容阅读
本文从元数据的获取和维护的角度出发,对数据抽取和更新中存在的问题进行了研究,最后给出了系统实现。主要研究成果如下:
(1)研究了ERE中的切分二义性问题,提出了切分二义性的检测和定位算法,给出了有害的切分二义性和有益的切分二义性的处理方法。
(2)针对生物数据源的多样性、易变性、异构性、分布性等特点,定义了描述生物数据源的通用元数据模型,并提出了集中式元数据仓储的结构。从而实现了异构生物数据源的数据更新。
(3)实现了DE-Wrapper的可视化编辑调试环境。该环境首先使用可视化界面支持ERE/DE-树可视化构建,然后自动检查该ERE/DE-树是否具有二义性,最后在样本数据上运行抽取算法并给出数据库结构和抽取结果,供用户进行评价,从而逐步引导用户设计出满足要求的ERE/DE-树。
(4)实现了生物数据仓库的增量更新系统。该系统使用本文中定义的元数据模型和数据仓储结构,保证了生物数据仓库增量更新的通用性和可扩展性。