基于组学数据的模拟空间环境健康监测及其应用研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fenderchu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在模拟空间实验中,受试者由于受到特殊的环境因素刺激会产生一系列的病理,生理等应激表型变化(例如内分泌功能异常,应激表型紊乱,失眠,焦虑等),多层次的高通量组学分子在其中扮演重要的角色。如何有效的运用数据挖掘方法从千万级的组学数据信号中识别与病理、生理表型变化关联的组学标记物并构建预警模型应用于受试者健康风险监测与评估,对于深入理解空间环境下受试者的表型风险和组学分子之间的调控关系、发现航天医学新知识具有重要意义。本论文以模拟空间环境下受试者健康表型预警研究为核心,围绕多类组学数据开发新算法,通过识别表型/疾病特异性的生物标记物,进行航天医学受试者的病理、生理表型的建模预测,并进一步应用于肿瘤的预后和分类研究中。本论文共开展了如下四部分相关研究:首先,本论文基于模拟空间环境下的健康预警研究需求,建立了多种高通量组学数据的标准化算法,包括:针对基因组捕获测序数据开发了基于极大似然估计的拷贝数变异检测算法,该算法相对于传统的二元分割合并算法增加了读段间隔校正,解决了捕获测序分析假阳性率高的问题;针对转录组RNAseq数据开发了质控标准化算法(低质量读段过滤算法,基于随机抽样的饱和度估计算法,转录本注释与表达丰度估计算法,基于Pearson相关的可变剪切分割算法);针对表观遗传组甲基化芯片数据开发了基于子集校正理论的定量标准化分析算法。进一步,本论文开发了整合多种分类算法和特征筛选策略的预警模型库,用于对不同实验背景的组学数据进行预警模型建模和最优标记物筛选,并提出一种基于遍历策略的组合模型算法,该算法最大限度的根据特征分布特点进行遍历式的最优化建模,有效的提高了预警模型的建模效率和预测精度。最后,基于生存分析检验和文献检索算法开发功能分析模块,用于揭示预警模型中的组学标记物的功能机制和文献证实情况。本论文利用R语言实现上述算法和生物信息学方法,并编译为R语言软件包CAPM,有效的解决了高通量组学数据的标准化分析和适宜建模决策算法组合问题,对发现模拟空间环境下受试者潜在的疾病风险,提供理论防护依据和决策支持具有重要意义。其次,本论文基于CAPM开展了模拟空间环境-“火星500”实验受试者血糖变化的建模研究。通过分析人体在长期隔离过程表观遗传水平的时序变化规律,根据各个时期DNA甲基化和血糖整体变化趋势将长期飞行划分不同的阶段,筛选出各个阶段显著变化的DNA甲基化位点作为特征构建血糖预测模型。通过特征筛选算法挖掘出151个血糖相关甲基化标记物,功能富集显示这些最优标记物显著富集在胰腺,酶联受体蛋白等糖尿病相关的组织和信号途径。后续,基于血糖模型挖掘的DNA甲基化特征集展开对二型糖尿病和正常人群的分类建模研究。实验发现18.7%的二型糖尿病差异甲基化探针都出现在血糖最优探针集中,表明血糖相关的DNA甲基化标记物与二型糖尿病的发生关系密切。通过文献检索发现血糖模型筛选的最优靶基因HDAC7是抑制胰岛素分泌的关键靶点,暗示模拟空间环境下健康表型预测有望扩展应用于二型糖尿病等复杂疾病的建模研究中。再次,在模拟空间环境下血糖预测研究的基础上,本论文基于CAPM方法展开对模拟空间环境受试者应激表型的建模研究。通过采集受试者外周血样本进行转录组micro RNA芯片数据测量,利用“维度简约”、“属性构造”等技术构造受试者不同表型的类别标签,基于CAPM预警模型库构造生理-心理应激表型的预测模型,识别出表征睡眠剥夺应激表型变化的micro RNA标记物;富集分析发现这些micro RNA标记物的靶基因显著富集在大脑和血小板组织。其中,GSK3beta和SLC6A4等血小板特异性表达基因同时参与多个生理、心理应激表型的代谢调控过程;实验初步提出“micro RNAs-血小板”理论揭示了模拟空间环境下受试者应激表型个体差异的形成原因。最后,基于模拟空间环境下受试者应激表型与复杂疾病的密切关联基础上,本论文进一步展开CAPM方法对肿瘤预后和分类的建模研究。实验首先从TCGA数据库中整合五类癌症(非小细胞肺癌,结肠癌,卵巢癌,乳腺癌和子宫癌)的四类组学标记物(lnc RNA,micro RNA,m RNA,DNAmethylation)共3197例样本。通过开发“预后风险打分策略”筛选预后风险标记物(Pre-biomarker),并基于CAPM“组合模型算法”构建多组学-癌症预后建模流程(IDFO),对五种癌症的四类组学标记物构造了20组单组学的癌症预后模型和20组不同类型组学数据整合的“组合”预后模型。比较发现,lncRNA和DNA甲基化特征相比于m RNA和micro RNA具有更好的预后预测能力,80%(n=16)的多组学“组合”预后模型未发现性能的提升,临床表型特征在多类癌症预后模型中均表现出较高的贡献性。后续,本论文基于独立数据集对空间辐射相关的多原发肺癌进行深入研究,发现了肺癌双原发病灶的特异性突变EGFR-L858R和MYCL。这些发现为肿瘤标记物筛选、候选药物靶点的研发及早期动态监测提供了有价值的参考。
其他文献
在当今流行的几种生物启发算法中,粒子群算法作为一种仿生计算方法,理论上能够解决常规计算方法所不能解决的大规模、非线性问题,但该方法在局部收敛性方面存在易早熟问题。为此
本文主要介绍采用VB编程语言,通过建立和输入柴油机连杆零件的特征参数,构建CAD/CAPP系统,实现零件设计和工艺文件的关联变化和参数化设计,并输出零件的工艺规程。
目的:研究彩色多普勒超声对乳房肿块的临床诊断价值,最终提高超声技术诊断的效率。方法:研究分析34例乳腺肿块患者内部肿块血流图像情况,通过手术之后对患者的病情进行复检,利用彩
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
影像在疾病诊断和手术计划中占有重要地位,随着机器人技术的发展以及微创手术的广泛采用,影像与机器人构成一体,形成计算机集成外科手术系统。影像不仅是疾病诊断的重要工具,它也
本文以三自由度P—R—R型平面并联机构为研究对象,建立系统的动力学模型,结合同步控制和自适应控制两种控制方法的优缺点,提出了一种新颖的控制方法,称为自适应同步控制,用来提高
目的当人体由立姿或坐姿改变为睡眠时的卧姿时,下肢流体会向头颈部迁移,使得上气道变窄。研究体位改变时阻塞性睡眠呼吸暂停(obstructive sleep apnea,OSA)患者头颈部组织中流
本文介绍振动实验室计量标准改造仪器选型及效果。选用丹麦B&K公司生产的PULSE3560C振动测试模块,利用笔记本电脑作控制和显示,组成多通道振动数据采集分析系统。系统以windows作为操作平台,实现对被测对象多点、多参数的时域或频域实时测量和分析。它可作为振动法定量值传递标准器,亦可用于各种现场振动工程检测。
随着中国经济发展进入新常态化,中国的经济发展速度从原来的高速发展逐渐转变为到中高速发展。在这种环境经济中,加快中小企业的发展具有重要的现实意义。中小企业是中国经济