生物数据抽取与更新若干问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:ckxworkman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从元数据的获取和维护的角度出发,对数据抽取和更新中存在的问题进行了研究,最后给出了系统实现。主要研究成果如下: (1)研究了ERE中的切分二义性问题,提出了切分二义性的检测和定位算法,给出了有害的切分二义性和有益的切分二义性的处理方法。 (2)针对生物数据源的多样性、易变性、异构性、分布性等特点,定义了描述生物数据源的通用元数据模型,并提出了集中式元数据仓储的结构。从而实现了异构生物数据源的数据更新。 (3)实现了DE-Wrapper的可视化编辑调试环境。该环境首先使用可视化界面支持ERE/DE-树可视化构建,然后自动检查该ERE/DE-树是否具有二义性,最后在样本数据上运行抽取算法并给出数据库结构和抽取结果,供用户进行评价,从而逐步引导用户设计出满足要求的ERE/DE-树。 (4)实现了生物数据仓库的增量更新系统。该系统使用本文中定义的元数据模型和数据仓储结构,保证了生物数据仓库增量更新的通用性和可扩展性。
其他文献
互联网的开放性为信息共享和交互提供了极大的便利,但随之而来的网络安全问题也日益明显。入侵检测是用于检测任何损害或企图损害系统的保密性、完整性或可用性行为的一种网
随着互联网和多媒体的快速发展,信息急剧增加,如何在海量的信息中快速准确地检索出有效信息已成为人们的迫切需要。音频检索作为信息检索技术的一个重要分支取得了较快发展,
本文根据音视频实时监视系统的需求和特点,选择了适合系统的实时传输控制协议RTP/RTCP,以及系统的开发平台DirectShow,并对开发平台进行了详细的分析,然后对监视系统的设计与实现
集群系统由于其卓越的性能价格比、良好的可扩展性、高可用性和好用性,逐渐成为当今计算机体系结构和并行处理研究的热点和主题。随着计算机和网络通信技术的迅猛发展,人类的
计算机网络技术和多媒体技术的不断进步成为网络多媒体应用日益普及和发展的强大动力。视频会议,视频点播,远程教育,无人监控等分布式多媒体应用逐渐走入人们的生活,给人们的工作
PC 的发展已经经历了二十多年的历史,无论是处理器、主板架构还是上层的操作系统软件,都已经发生了翻天覆地的变化,但是主板上的固件代码-BIOS的整体体系架构却在这二十多年
在实时数据库中,要求实时事务在截止期内提交,并存取能反映不断变化的外部环境的数据,例如温度和股票价格。因为磁盘I/O,传统的数据库不能满足事务和数据的定时限制。而在内
随着数据库的应用范围不断扩大,人们越来越希望能够共享位于分布异构数据源中的数据。由于多数据库系统屏蔽了不同局域数据库在物理上和逻辑上的差异,使用户实现了对异构数据库
随着整个社会信息技术的发展,在并行计算、分布式计算和网格计算三大计算模型相继被提出并发展成熟以后,学术界又提出了一种新的计算模型——云计算。云计算通过网络将大量的
织物仿真技术是将计算机辅助设计(CAD)技术应用到织物设计中,通过计算机设计织物的纹样、图案,模拟生成具有真实感效果的织物表面外观。 织物仿真技术的应用不仅可以提高纺