【摘 要】
:
随着测序技术的巨大进步和生物信息学的迅猛发展,科学研究中由临床病人产生的测序数据呈指数增长,大量的生物信息数据对存储的需求也随之增长,大约每12到18个月就会增长10倍,这远远超过了摩尔定律的参考值。因此,如何消耗更少的存储和计算资源来高效地对海量测序数据进行分析并筛选出一些重要的特征基因或具有显著差异的基因集,已经成为一项极其重要的研究课题。 癌症基因组图谱(TCGA)是一个具有里程碑意义的癌
论文部分内容阅读
随着测序技术的巨大进步和生物信息学的迅猛发展,科学研究中由临床病人产生的测序数据呈指数增长,大量的生物信息数据对存储的需求也随之增长,大约每12到18个月就会增长10倍,这远远超过了摩尔定律的参考值。因此,如何消耗更少的存储和计算资源来高效地对海量测序数据进行分析并筛选出一些重要的特征基因或具有显著差异的基因集,已经成为一项极其重要的研究课题。
癌症基因组图谱(TCGA)是一个具有里程碑意义的癌症基因组计划,它从分子上表征了32000多个原发癌症样本,分别归属于39种癌型及其亚型,且具有对应病人的正常细胞样本。TCGA目前产生了超过2.5PB容量的基因组、表观基因组、转录和蛋白质组数据,传统的单机式处理系统难以处理如此大量的数据集且存在着诸如性能不足、定制性差、二次开发困难以及结果不稳定等问题。因此迫切需要构建一种效率高、成本低并且计算结果稳定的数据处理系统,以统一处理愈发庞大的基因谱表达数据,从而依靠Hadoop平台搭建的分布式计算系统应运而生。
本文主要以分布式运算框架MapReduce、Spark为基础,同时以Hadoop平台作为数据处理环境,搭建了分布式数据处理系统。针对BroadGDACFirehose数据库中来自TCGA数据库的1098套乳腺癌、631套结肠癌、551套肺鳞癌基因表达谱数据作为样本,每个癌症样本的表达谱又包括20532种基因的表达值,从对比三种癌症自身的原发癌样本与正常组织样本,以及原发癌样本与转移癌样本之间的基因通路富集分析出发,到与之对应的生物学功能分析。目的是挖掘原发性癌症和转移性癌症之间的差异表达基因及其特征基因选择,从而与实际的临床患癌病人追踪数据相结合,绘制出不同癌症中的特征基因表达与对应患癌病人之间的未来生存率关系曲线图,以期为临床患者的预后和生存期预测给予一定帮助。
其他文献
癫痫是十分常见的神经系统疾病,其中难治性癫痫仍然难以通过药物或手术得到有效控制。以电刺激为手段的神经调控技术已经在治疗帕金森、癫痫等神经系统疾病中取得了引人瞩目的成果,而近年来新兴的闭环电剌激通过对大脑状态的实时检测而决定释放反馈电刺激的时间,有望提高电剌激的治疗效果,因此日益受到研究人员和临床医生的关注。但闭环电刺激在治疗难治性癫痫的研究和应用仍面临以下几个主要问题:如何设计低能耗高性能的闭环刺
终末期肾病在世界范围内的发病呈上升趋势、危害严重,造成了巨大的疾病负担。终末期肾病患者主要通过血液透析(血透)这一治疗手段维持生命。因此,为血透患者提供更准确的预后模型,是终末期肾病医疗服务提升与血透患者精准管理的基础与重要依据。然而,现有研究主要基于单次、静态的患者体征构建预后模型,缺乏对多次、动态的时序特征的有效分析,无法全面、精准预测血透患者疾病进展情况,难以为临床医生提供准确有效的决策支持
随着信息技术的高速发展和医院信息系统的日益普及,患者的临床资料得以电子化记录和存储。这些临床数据能够反映患者的身体状况,为患病严重程度评估和疾病风险预测提供重要依据。临床预测模型是基于医学数据利用机器学习技术建立的疾病诊断和预测工具,能够为医生诊断病情、制定治疗管理方案以及进行医学研究提供科学依据和决策支持,具有重要的应用价值。但在临床实践中,医学样本往往数量较少且数据不完整,容易导致机器学习算法
当今的生物医学成像技术已经能够在器官、组织、细胞、分子和基因等不同尺度水平上呈现生物体的形态结构或功能代谢信息。然而,不同的成像模态具有不同的适用范围和优缺点。将不同成像模态和尺度水平上的生物医学影像信息进行融合是生物医学影像领域的重要研究方向。深入开展生物医学影像融合技术研究对临床影像学诊断、病变的精确定位、放疗计划的设计、外科手术方案的制定和疗效评估等具有重要的学术意义和临床价值。 本论文对
脑机接口研究中常利用神经电生理信号对运动参数进行解码,而将肌电作为解码对象的相关研究较少,主要集中在人、猴子等实验动物上。由于小鼠有多种基因模式可供使用,在小鼠上进行脑机接口相关研究可以为下一步进行特异性神经元神经解码奠定基础。本文作为脑机接口预研究,重点研究小鼠尾端前肢区(Caudal Forelimb Areas,CFA)、喙侧前肢区(Rostral Forelimb Areas,RFA)的局
人体平衡能力是身体综合机能的一种表现。随着年龄的增加,人体的平衡能力趋于下降,导致跌倒的风险越来越高。我国正处于严重老龄化的边缘,跌倒导致的老年人受伤和死亡比例居高不下。而在人体的平衡能力中,动态平衡能力相比于静态平衡能力在跌倒风险上具有更为紧密的联系。因此,人体动态平衡能力的筛查对于降低老年人跌倒风险,减轻我国医疗负担具有重要意义。 目前,临床上通行的平衡能力测试方案仍然是量表法为主。量表法测
传统光学显微镜受光学衍射极限的限制,其分辨率难以达到200nm以下。超分辨荧光显微成像技术成功打破了光学衍射极限,提高了光学显微镜的空间分辨率。在各种超分辨荧光显微成像技术中,结构光照明荧光显微成像技术(SIM)的成像速度快,激光功率低,特别适合观察活细胞内亚细胞结构及其动态变化过程。但是,用SIM观察活细胞内亚细胞结构及其动态过程仍具有挑战性,因为这不仅需要荧光探针可以特异性地标记活细胞内的亚细
多发性硬化症(MS)的发生发展伴随着复杂的病理学现象,同时涉及多种免疫细胞的参与,人们对此疾病的机理性研究存在众多的争议,相应的临床药物研发也是进展缓慢。此外,由于MS早期无明显的器质性病变区,使用临床常用的MRI成像技术难以实现MS的早期诊断。近年来,研究者们提出了基于靶向髓系细胞的方式用于诊断和治疗MS的策略,但如何特异性地靶向调控这些细胞尚处于起步阶段,如何直观在体揭示这些细胞在MS病程中的
生物识别技术(Biometrics)是近些年来的一个热门话题。与传统的身份识别技术相比,生物识别具有隐秘性高,加密性强,不易复制等优点,近些年来伴随着脑电图(electroencephalogram,EEG)的发展,能否使用脑电信号进行生物识别受到关注。目前已有的研究多基于静息态(Resting-state)和事件相关电位(Event-related potential, ERP)等脑电信号,仅局
脑力负荷指在一定时间段内执行特定任务所付出的认知资源。研究表明脑力负荷过载或欠载都会导致人因失误,通过对操作者的脑力负荷进行监测,可以使任务执行效率和生产安全性都得到大幅提高。但在目前的脑力负荷识别研究中,识别正确率和时间鲁棒性都有提升空间。本研究拟通过多种生理信号,探索更多对脑力负荷变化敏感的特征,并利用混合特征实现脑力负荷分类识别,探究提高模型时间鲁棒性的方法。 本研究共招募了20名健康被试