基于语义的生物信息集成中的信息提取与查询技术的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:liuln6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
鉴于开放的异构Web生物信息源数据量庞大,Web 访问低效而易出错,检索接口不完善,难于查询和检索,Web页面结构化程度低等问题,本文研究了基于语义网格的生物信息集成技术,从信息的查询、检索、提取和集成(数据源部分)四个方面入手,主要完成了如下一些工作: 1)详细设计了基于语义网格的生物信息集成系统的数据适配层的系统框架。 2)研究并实现了扩展现有Web数据源的检索能力以支持全面的数据查询的技术,主要包括查询解析、数据筛选和投影。虽然Web数据源提供的检索和访问方式各异,但本文提供了统一的访问方法;针对不同数据源良莠不齐的 Web 检索支持,本文提供了用户需要的查询能力。 3)研究了逻辑Web访问、带混淆的线程池和数据库缓存的技术,并实现了统一高效的Web检索和数据获取,提高了Web访问的速度,使得对Web数据源的大数据量查询成为可能。 4)重点研究并实现了利用XPATH规则和文本上下文规则自动地从Web页面中提取信息的技术,包括两种规则的规则执行模块和信息提取模块,以及文本上下文规则的词法和语法解析模块。同时,文本规则提供了一定的跟踪和调试能力帮助用户分析规则的执行过程,从而大大降低了编写和分析文本上下文规则的难度。 5)研究了基于语义网格的信息集成以及网格服务封装技术,实现了基因调控数据源部分,并提供了各数据源的模式本体。
其他文献
针对国内癌症医疗诊断系统对人体细胞识别技术的需求,本文研究并设计出一套有效的基于病理分析的人体细胞识别系统,以达到提高癌症诊断正确率的目的。 本文根据不同的需求,采
P2P处在一个动态的环境中,网络结构不断地发生变化,使得建立和维护一个P2P网络拓扑结构并有效的搜索网络中的资源变得异常复杂。目前,P2P分布式模式中有非结构化和结构化两种
办公自动化是实现行业信息化的重要手段,设计实现一套功能完备的办公自动化系统是一项复杂繁琐的系统工程。为了获得阶段性的开发成果,从需求分析到项目设计,再到编码实现,每
多视点视频作为一种即将出现的交互式多媒体应用,它的提出体现了下一代多媒体应用网络化、交互性和真实感的发展方向,已经吸引了越来越多的学者,并在各个领域展开了研究,它主要应
模式匹配在许多领域中扮演着重要的角色,如模式集成、数据仓库、电子商务、数据集成等。但是由于模式表达形式的多样性、模式异构的复杂性等,目前对于模式匹配的研究均不能保
本文研究了VPN的分类方法,系统分析了处于TCP/IP网络不同层次的VPN协议规范,详细分析了SSL协议的工作机制和消息格式,就SSL与IPSec、SET、S-HTTP、S/MIME等协议在安全、性能、应
随着计算机技术和无线网络技术的进一步发展,移动办公等移动计算环境下的应用需求目益强烈,同时,应用需要处理的数据量和复杂度也不断增加,这使得许多应用需要嵌入式的移动数据库
随着计算机技术,特别是Internet技术的迅猛发展,在企业内部,由于部门间相对独立,构建系统时缺乏统一的规划和标准,形成了现有的应用系统多是分散、异构、封闭的系统,相互之间
在软件测试过程中,测试用例的生成是软件测试的关键和难点。目前,测试用例的生成主要靠手工完成,而且要求软件测试人员具有一定的经验和较高的专业水平,导致测试效率低下,软件成本
随着信息技术的迅速发展及其在制造业中的广泛应用,企业信息化建设进入了一个蓬勃发展的时代,如何把工艺设计人员从繁重的重复劳动中解放出来;如何有效管理大量的工艺文件和