论文部分内容阅读
生物信息学是应用计算机技术开发算法和统计方法对数据进行分析,确定其所含生物学意义,以实现对生物信息的获取和管理的学科。中国科学院微生物研究所网络信息中心近年来一直致力于微生物资源数据库、生物医学检索引擎、序列分析、文献挖掘等相关的课题研究,应用服务器管理、数据库建设、数据收集、存储、索引、检索和分析等技术。
目前在新一代测序技术等研究中产生了大量的生物数据,但尚未对这些多源异构生物数据进行格式分析、量级分析及检索系统选择规范的确定。
本论文以设计和实现多源异构生物数据统一检索平台为目的,与生物领域科学家的研究需求紧密结合起来:1.结构多样:中国真菌志等是能用二维表结构来逻辑表达实现的关系型数据;人类基因组工程、高通量筛选测序产生的核酸、蛋白质序列、基因图谱、生物学文献等是非关系型数据;2.量级多样:有中小型数据库、TB级别甚至更高级别的海量数据;3.检索要求:包括检索结果的可靠性及系统响应度的可接受性;4.不同检索模块间的独立性和整合性;5.检索平台用户友善、体验性良好;6.对检索结果的进一步分析,实现更有价值的信息分析工作。
该平台对DNA、蛋白质序列、生命科学发展至今的文献及专利等数据进行分析和检索,包括四种数据格式:关系数据;序列图像数据;文献与专利数据;网络数据。实现基于MySQL的关系数据库检索、基于MRS工具的Flat-file海量数据检索、基于Lucene的全文检索、基于WebService的网络数据检索。并对这些不同类型的检索模块进行链接和整合,提供统一的Web检索平台供研究人员使用。
通过该平台,为生物学领域的研究人员提供应对不同数据来源的生物检索平台。主要取得了以下三项成果:
1)针对生物数据的结构多样的特点,提出了能满足生物资源数据的统一检索的框架。
2)实现了基于MySQL的关系数据、基于MRS的Flat-file数据、基于Lucene的全文数据、基于WebService的网络数据的生物数据统一检索平台。
3)在病原微生物信息平台中得到引用,对检索效率进行评估和优化。在上述工作的基础上,实现了MRS5.0版本的本地部署、自有格式数据的MRS索引、MRS中文检索。实现了Lucene检索系统的本地部署、联合检索、高亮显示、StopWords过滤、跨库链接、词频统计,自动分析全文规律,生成统计图谱,为用户提供有效的全文内容分析环境。基于我们的实际应用结果,验证了多源异构生物数据检索技术的合理性。