代谢组学数据分析的算法研究及在线工具开发

来源 :重庆大学 | 被引量 : 0次 | 上传用户:yinfeiyangfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代谢组学(metabolomics)是系统生物学重要的组成部分,旨在对生物样本中的低分子量代谢物进行系统鉴定,已广泛应用于生物标志物的筛选和生理病理进程机制的研究。代谢组学可以同时检测生物流体、细胞和组织中的数千个代谢物,已经成为生物医药研究领域的重要工具。但是,代谢组学研究仍然面临着巨大挑战,包括(1)由于实验成本高、实验资源有限等原因,很多代谢组学研究的样本量一般在几十或几百的数量级。样本量小和样本的代表性不足,对后续的数据分析会产生较大的影响,比如导致筛选的差异代谢物不稳定或者分类能力差。(2)归一化方法是代谢组学数据分析必不可少的一部分,用于消除非期望的仪器噪音和生物学偏差。但应用不同的归一化方法会产生完全不同的结果,如何选出最合适的归一化方法成为代谢组学研究的重要挑战。(3)据报道,不同组学数据识别的生物标志物存在高度不稳定的问题。这种不稳定的结果导致人们对已报道的生物标志物的可靠性存在质疑,并极大地阻碍了它们在临床中的应用。(4)在非靶向代谢组学研究中,代谢物注释能力非常有限,只有不到2%的质谱峰能被成功鉴定为特定的代谢物,再将代谢物对应为相应的生物学信息也面临挑战。
  针对在代谢组学数据分析中所面临的严峻挑战,本文所开展的创新性研究主要从以下四个方面开展:(1)提出了一种将多个分析实验数据合并成一个整体数据的方法,构建了增加样本数据量和样本代表性的算法,以得到更稳定可靠的分析结果,大大增加了大规模代谢组学研究筛选的生物标志物的稳定性。(2)为了校正信号漂移并消除批次效应,开发了在线服务器NOREVA(https://idrblab.org/noreva/),旨在从多种角度评估各种归一化方法的性能。NOREVA提供了全面的归一化方法,包括基于内标的归一化方法和基于QC样本对信号漂移的校正,以及基于五个评估标准的综合分析以进行全面的评估。此外,根据原理,将归一化方法分为对样本的归一化(基于参考样本以减少样本间的差异),和对代谢物的归一化(基于归一化因子以降低代谢物之间的信号偏差)。本文提出并验证了在代谢组学中应用组合策略(将两类归一化方法合并使用)可以得到更好的结果。为了将代谢组学的归一化方法的应用延伸至更广的领域,本文构建的NOREVA,实现了对时间序列和多类问题数据的归一化和多标准系统评估。NOREVA整合了168种基于组合策略的归一化方法,对于特定代谢组学数据通过多角度评估以确定性能最好的归一化方法。(3)针对生物标志物不稳定的问题,本文构建了一个新的生物标志物筛选方法,是基于支持向量机-递归特征消除算法,整合随机抽样和一致性打分的新算法。通过转录组学数据进行充分验证,发现与传统方法相比,本研究提出的新方法表现出更强的稳定性和更好的分类预测能力。代谢组学数据应用这个新的生物标志物筛选方法,可以发现疾病的诊断和潜在药靶分子。(4)开发了一个用于代谢组学数据分析的在线服务器MMEASE(https://idrblab.org/mmease/)。其中包含了数据庞大和信息丰富的代谢物数据库,一共提供了超过33万个代谢物和外源性注释信息。具体包括107,071个内源性代谢物,124,451个外源性代谢物和169,352个肽类,并包含代谢物的详细的外源性注释信息。在线服务器MMEASE也提供了对代谢物的富集分析功能,包括化学家族、化妆品成分、食物成分和食品添加剂、植物代谢物和农用化学品、小分子药物和药物代谢物、毒素、环境污染物和微生物代谢物,天然药物次生代谢产物的物种分类和疗效分类八个条目。
  综上所述,本文从代谢组学研究所面临的亟待解决的问题出发。在代谢组学数据整合、数据归一化、生物标志物识别和代谢物注释富集等多个方面开展了系统研究。构建了一系列用于代谢组学数据分析的算法和平台,作为代谢组学研究在整合大规模数据、选择最优的数据分析流程、筛选最稳定可靠的生物标志物和阐释生物学意义等方面的有用工具。本文将为基于代谢组学研究发现稳定可靠的生物标志物或药物靶点提供有力支撑。
其他文献
钨酸盐因其在清洁能源生产、电催化、光催化、电子存储等方面具有突出的性能而成为功能材料最活跃的研究领域之一。因催化反应多发生在半导体材料的表面,通过对反应过程中的各种参数的精准调控,可以有目的性地合成特定形貌、组成与结构的催化材料,从而使得其性能得到显著提升。然而,在钨酸盐纳米材料的可控设计中涉及到的生长机制和结构与性能的关联规律方面仍存在很大的不确定性,需要进一步研究和探索。本课题以钨酸盐为主要研
受访专家  王拥军  主任医师,教授,博士研究生导师。任首都医科大学附属北京天坛医院院长兼党委副书记、国家神经系统疾病临床医学研究中心副主任、国家神经系统疾病医疗质量控制中心主任、北京脑血管病临床研究中心主任等。兼任国家卫生健康委员会能力建设与继续教育中心学科建设与科研管理分会委员、国家基本公共卫生服务项目基层高血压管理专家委员会副主任委员、中华医学会神经病学分会候任主任委员、中华预防医学会常务委
期刊
由于表观遗传修饰机制的不断揭示,作为关键调控因子,组蛋白去乙酰化酶(histone deacetylase,HDACs)在体内多种生物学进程中发挥的功能也引起了广泛的关注,并发现其异常表达与多种疾病的发生发展密切相关,尤其是癌症,神经系统疾病。随着,组蛋白去乙酰化酶抑制剂(histone deacetylase inhibitor,HDACsi)被美国FDA批准用于皮肤T细胞淋巴瘤及外周T细胞淋巴
氮杂多肽是多肽骨架中含有一个或多个氮杂氨基酸的多肽类似物。氮杂氨基酸中的α-碳原子被一个氮原子取代,从而形成氨基脲结构。由于脲结构单元的平面性以及肼结构单元中两个氮原子上的孤对电子之间的排斥作用,使氮杂结构单元具有较强的刚性,同时更倾向于诱导多肽骨架形成β-转角结构。氮杂多肽具有增强的蛋白酶稳定性,同时具有提高靶点的选择性和亲和力。因此现已作为一种多肽类似物被广泛应用于酶抑制剂、特定受体的配体以及
随着全球能源需求的快速增长和生态环境问题的日益加剧,迫切需要寻找新的清洁能源并提高一次能源的利用效率。从自然界获得的各种清洁能源,如太阳能、潮汐能、地热能和风能等可再生能源具有间歇性,须经储存、转换方能转化为可稳定输出的能源,以匹配人类对能源的需求,新型高效的储能与转换理论、技术和装备的研发已经成为当前能源发展的研究热点。超级电容器,也被称为电化学电容器,是电化学储能的重要技术;电催化分解水则是重
天然产物(植物、微生物和动物的次生代谢物)是新药研发的重要来源,在现代药物研究中占有非常重要的地位。本文涉及的樟属植物及其内生菌和荚蒾属植物均有研究报道一些结构新颖且生物活性良好的化合物。因此,对同属植物及内生菌进行系统研究,有望发现结构新颖,生物活性突出的化合物,为药物开发奠定物质基础。本文对两种樟属植物钝叶桂和毛叶樟及另一种植物樟的树枝内生菌金黄拟盘多毛孢和一种荚蒾属植物短序荚蒾进行了系统的化
受访专家  陈红  主任医师,教授,博士研究生导师,享受国务院政府特殊津贴专家,获评有突出贡献中青年专家。现任北京大学人民医院心脏中心主任、心内科主任。兼任心血管分子生物学与调节肽卫健委重点实验室副主任、北京大学医学部心血管内科学系副主任、国家心血管病专家委员会第一届委员会委员等职务。对常见及疑难危重心血管疾病的诊治具有丰富的临床经验,尤其擅长高脂血症、冠心病、高血压及心力衰竭的诊疗。  门诊时间
期刊
金荞麦(Fagopyrum Cymousum),是蓼科荞麦属(Polygonaceae family,Fagopyrum Mill.)的多年生双子叶草本植物,是一种原产于我国的珍贵的药饲兼用植物。目前,对于我国金荞麦野生资源调查分析以及生物活性成分代谢调控机理方面的研究还十分薄弱。因此,本研究收集了我国西南地区的金荞麦种质资源,通过分子标记手段进行系统进化分析,鉴定其亲缘关系,为品种选育和改良提供
受访专家  周尚昆  博士,副主任医师,中国中医科学院望京医院眼科主任。师从著名眼科专家唐由之研究员,现为北京市中医药薪火传承3+3工程项目建设单位“唐由之名老中医工作室望京医院”分站负责人。  成功完成白内障、青光眼等各类眼科手术5万余例,擅长复杂性白内障、青光眼等的手术治疗及葡萄膜炎、干眼症、眼底出血性、萎缩性、变性类疾病及黄斑部疾病的中药及针灸治疗。  眼睛不仅是人的视觉器官,还是人与外界沟
期刊
李斯特菌(Listeria monocytogenes)是一种革兰氏阳性细菌,于1926年在兔和豚鼠中首次发现。李斯特菌在二十世纪七十年代被确认为是人类疾病的病原体,并于十年后被发现可通过食物进行传播。虽然李斯特菌每年的感染数量处于中等水平(2010年全球估计约有23150人感染),但感染的死亡率却非常的高(20-30%)。摄入高度污染的食物后(大约10~9细菌),大多数患者都会出现轻微或严重的肠