论文部分内容阅读
近年来,各种新的高通量实验技术的迅速发展以及大量高通量生物组学数据的积累为生命科学研究带来了新的机遇,使得我们可以从生命活动的不同角度和层面对生物系统进行全面的观察和研究。然而,大量的高通量组学数据在带来机遇的同时也为计算生物学研究者们带来了许多新的挑战。其中,既包括侧重数据分析层面的挑战,也包括侧重高通量数据建模层面的挑战。围绕这些挑战,本文展开了相应的研究工作。第一方面的工作:基于基因表达数据的微RNA(microRNA)活性分析。MicroRNA是生物体内的一类非编码RNA分子,它是生物体实现转录后调控的重要机制,并且与许多疾病过程和重要的生物过程直接相关。而高通量生物组学数据对microRNA调控机制的研究具有重要的意义。本文利用高通量的基因芯片数据对1nicroRNA调控mRNA降解的活性展开了研究。本文提出了一种microRNA活性评估方法mirAct。该方法使用了非参数化的方法,充分利用了单个样本内以及不同类样本间的基因表达信息,能够很好的处理样本数据很少的情况。与现有的其他一些方法相比mirAct可以对多类样本数据进行分析,并且更加鲁棒,在面对低活性的microRNA以及高强度的噪声数据时有更具竞争力的表现。为了更好地服务microRNA研究者,基于mirAct本文实现了一个Web工具。与之前的一些单机程序分析工具相比作为Web Server的mirAct具有更友好的用户接口,可以很直观地将结果展现给用户,并提供了一些后续的分析功能。本文使用包括mirAct在内的若干种microRNA活性评估工具,对多种不同组织、不同来源的1nRNA和microRNA表达数据进行了分析,并得到结论:microRNA生物活性与其表达之间仅存在很弱的相关性。这样的结果与直观感觉不同,揭示了nicroRNA与其靶基因之间存在相当复杂的调控机制。第二方面的工作:基于高通量生物数据的代谢流量分析。代谢系统是生命活动的基础,对代谢系统的研究不仅对工业生产具有促进作用,同时还具有重要的临床意义。而高通量实验技术的发展与高通量组学数据的积累使得人们有机会从一个新的层面对代谢系统进行研究。本文在利用高通量生物数据进行代谢流量分析方面开展了两部分工作:一是利用碳标记实验得到的质谱及核磁数据对微生物进行代谢流量分析;另一部分是结合蛋白质组学数据对高等生物进行代谢流量分析。基于碳标记实验的代谢流量分析(13C MFA)通过检测代谢物的同位素标记信息对细胞内的代谢流量进行精确的定量分析,是分析微生物代谢系统的重要工具。首先,为了保证13CMFA计算的可靠性,本文提出了一种对代谢网络模型进行自动化校验的方法,避免了费时费力的手工校验。之后,利用碳标记实验得到的质谱及核磁数据,本文对在氧化应激条件下大肠杆菌中心碳代谢系统的流量分配变化情况进行了系统的研究。通过13C MFA分析的结果,我们发现了一些大肠杆菌通过调整代谢流分配以应对氧化应激条件的机制。最后,本文提出了一种简单易行的方式将13CMFA与代谢流量平衡分析(FBA)结合起来。新的分析方法兼顾两者的优点,使代谢流量分析可以在较大的代谢网络模型中进行,且得到的结果更贴近实际的生理状态。在高等动物,特别是哺乳动物中的代谢流量分析工作,目前还相对较少。利用高通量组学数据可以为相关的研究带来大量有用的信息,本文在前人方法的基础上,使用一种混合整数线性规划模型结合蛋白质差异表达信息,对高等生物代谢系统中反应活性的变化进行研究。新的方法即避免了现有方法中需要确定高表达反应这一棘手的问题,又能有效地展示代谢系统中的差异。通过时序的蛋白质表达数据,本文利用新的方法对易患肝细胞癌的转基因小鼠与正常小鼠肝脏细胞的代谢系统差异进行了分析。分析结果展示了新方法的有效性,并在代谢系统的层面上为肝细胞癌发病机理的研究提供了新的线索。总结来说,针对microRNA活性分析与代谢流量分析这两个具体问题,本文在高通量组学数据分析建模的领域进行了一些探索,但是高通量组学数据所带来的挑战在现阶段并没有被很好的解决。为了更好的应对这样的挑战,需要计算生物学研究人员与实验生物学家更加紧密的合作。相信在未来很长一段时间内这个领域仍然会是信息科学与生命科学相互交流的很好的平台。