生物数据的内容分析和检索技术研究与实现

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：fdgb54gh4hg4

【摘要】

：

生物信息学是应用计算机技术开发算法和统计方法对数据进行分析，确定其所含生物学意义，以实现对生物信息的获取和管理的学科。中国科学院微生物研究所网络信息中心近年来一直致

【作者】

：

夏青

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

生物数据内容分析检索引擎文献挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

生物信息学是应用计算机技术开发算法和统计方法对数据进行分析，确定其所含生物学意义，以实现对生物信息的获取和管理的学科。中国科学院微生物研究所网络信息中心近年来一直致力于微生物资源数据库、生物医学检索引擎、序列分析、文献挖掘等相关的课题研究，应用服务器管理、数据库建设、数据收集、存储、索引、检索和分析等技术。　　目前在新一代测序技术等研究中产生了大量的生物数据，但尚未对这些多源异构生物数据进行格式分析、量级分析及检索系统选择规范的确定。　　本论文以设计和实现多源异构生物数据统一检索平台为目的，与生物领域科学家的研究需求紧密结合起来：1.结构多样：中国真菌志等是能用二维表结构来逻辑表达实现的关系型数据；人类基因组工程、高通量筛选测序产生的核酸、蛋白质序列、基因图谱、生物学文献等是非关系型数据；2.量级多样：有中小型数据库、TB级别甚至更高级别的海量数据；3.检索要求：包括检索结果的可靠性及系统响应度的可接受性；4.不同检索模块间的独立性和整合性；5.检索平台用户友善、体验性良好；6.对检索结果的进一步分析，实现更有价值的信息分析工作。　　该平台对DNA、蛋白质序列、生命科学发展至今的文献及专利等数据进行分析和检索，包括四种数据格式：关系数据；序列图像数据；文献与专利数据；网络数据。实现基于MySQL的关系数据库检索、基于MRS工具的Flat-file海量数据检索、基于Lucene的全文检索、基于WebService的网络数据检索。并对这些不同类型的检索模块进行链接和整合，提供统一的Web检索平台供研究人员使用。　　通过该平台，为生物学领域的研究人员提供应对不同数据来源的生物检索平台。主要取得了以下三项成果：　　 1)针对生物数据的结构多样的特点，提出了能满足生物资源数据的统一检索的框架。　　 2)实现了基于MySQL的关系数据、基于MRS的Flat-file数据、基于Lucene的全文数据、基于WebService的网络数据的生物数据统一检索平台。　　 3)在病原微生物信息平台中得到引用，对检索效率进行评估和优化。在上述工作的基础上，实现了MRS5.0版本的本地部署、自有格式数据的MRS索引、MRS中文检索。实现了Lucene检索系统的本地部署、联合检索、高亮显示、StopWords过滤、跨库链接、词频统计，自动分析全文规律，生成统计图谱，为用户提供有效的全文内容分析环境。基于我们的实际应用结果，验证了多源异构生物数据检索技术的合理性。

其他文献

结合矩阵分解的协同过滤推荐算法研究

如今大数据时代，数据的稀疏性问题日益严重，传统的单一协同过滤推荐算法很难保证较高的推荐精度。而社交网络的快速发展，使得更多类似于好友关系、标签内容的多元化信息可以融入

学位

学术社交网络推荐系统协同过滤推荐算法概率矩阵分解标签评分个性化推荐

安卓的应用生态系统和安全性的研究

安卓操作系统自2008年首次发布以来已经进行了多次更新，然而，数次更新后碎裂开始显现，这使得更新所有先前版本操作系统难以及时实现。除了核心操作系统是开源的，谷歌拥有提高核心

学位

安卓操作系统应用程序生态系统安全管理

高通量测试床在线测试技术研究

随着互联网用户和数据的急剧增加,高通量计算(High Volume ThrougthputComputing)的需求越来越大,对高通量计算方面的研究也越来越多。高通量计算方面的研究需要海量真实的用

学位

高通量测试床负载发生器负载重放组件替换在线测试技术

基于浏览意图预测的推荐模型研究

互联网时代，信息量飞速增加，网络用户数量也不断增长，人类正在通过信息技术将历史上曾经生产的种种媒介内容融入比特之海，同时以史无前例的速度继续生产内容。信息量的急速增加，一

学位

信息过载网络行为分析意图预测内容推荐机器学习

基于混合遗传算法的CNG加气站生产调度研究

随着人们生活水平的提高，汽车拥有量逐年提高，致使石油危机和大气污染越来越严重，得到了各国的高度重视。各研究机构80年代就开始对天然气、液化汽车进行深入研究和实验工作。近

学位

CNG加气站生产调度分公司调度混合遗传算法

无线传感器网络协议栈的研究与实现

无线传感器网络协议栈是一个较综合的研究领域，一方面涉及面向应用的理论研究和算法设计，另一方面需要考虑整体设计、与其他网络互联融合等工程问题。随着物联网等概念的提出，无

学位

无线传感器网络协议栈位置信息Blackboard模式随机调度

协同云服务中的数据隐私保护关键技术研究

协同科研环境在线服务为科研人员提供云端的信息保存和分享服务，进行协作科研。科研信息和数据及相关知识产权的保护通常是科研人员非常关心的，云端数据隐私保护也是当前重要的

学位

隐私保护云服务访问控制云存储属性加密权限管理密文策略

基于Fiedler向量的复杂网络重叠社团挖掘算法研究

复杂网络普遍呈现出社团结构特征。直观上，这意味着复杂网络可能包含一些局部结构模块（即社团），使得每个模块内部联系紧密且与外部联系较为松散。每个节点仅归属于一个社团的社团

学位

复杂网络重叠社团结构挖掘算法Fiedler向量启发式策略

双层IP地址空间体系结构

当前互联网面临的挑战之一就是路由系统的可扩展性。路由表的快速增长以及越来越频繁的BGP更新，对核心路由器的性能、复杂性、能耗和成本产生了越来越大的压力。近年来，大量网

学位

双层IP地址空间体系结构路由系统互联网会话映射可扩展性

量子谐振子蚁群算法

在计算机科学、高能物理科学、生物学、超大规模集成电路设计、地球学、电子工程等领域，都存在着大量的优化组合问题，如旅行商问题、图着色问题、设备布局问题，其中的一些问题至

学位

蚁群算法量子谐振子TSP算法函数优化信息素更新规则

生物数据的内容分析和检索技术研究与实现

与本文相关的学术论文