基于机器学习的染色质三维结构及DNA甲基化预后模型研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:dubo2536
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据世卫组织(WHO)的研究结果显示,癌症仍是致病率、死亡率居高不下的致命疾病,恶性肿瘤产生的原因多种多样,包括原癌基因的异常表达、染色体结构变异(SV)以及DNA甲基化导致的抑癌基因转录沉默等,癌症的早期筛查和诊断是困扰科研人员和医学家的重要难题。传统的高通量染色体构象捕获(HiC)、光学映射等方法只能提供有限的序列信息和分辨率,但依据现有的生物学数据从而拓展高维空间中的染色质组织构象可视化依然缺少研究策略。DNA甲基化水平值异常往往是癌症发生的预警标志,因此如何识别高风险甲基化位点,并且联合临床数据、基因表达数据等,提供更加严谨和丰富预后信息,仍需要新的研究方案。在本文中,针对染色质空间构象研究及DNA甲基化预后分析课题,将生物学理论与机器学习算法相结合,挖掘生物数据的潜在特征,探寻最符合数据样本规律的研究方法,为癌症问题及其他生物信息学问题的研究提供思路,本文的主要贡献如下:(1)针对染色质空间成像问题,独创性地提出基于Hilbert曲线(Hilbert Curve)的染色质三维构象研究框架。采用基于双核苷酸的基因序列特征提取方法,提取基因序列特征,结合Hi-C数据,使用局部加权线性回归(LWR)机器学习算法拟合Hilbert key值,再将Hilbert key值还原至三维空间,实现染色质构象可视化,为染色质空间结构研究提供新方法。(2)提出基于针对DNA甲基化数据集的PADMXB算法(Prognostic analysis of DNA methylation based on XGBoost)及最小二乘线性回归的DNA甲基化预后分析模型。针对DNA甲基化数据集样本不平衡的问题,为模型增加了阈值参数,调整正负样本的分类边界,相较于Cox回归分析,算法效果有所提升。结合临床数据,使用最小二乘线性回归算法拟合生存时间,通过筛选出的甲基化位点及基因表达联合分析,对癌症问题进行深入研究。
其他文献
陆-气耦合强度是指陆面状态变化对降水和气温等的影响程度,用于表征陆面对于气候系统的影响。定量评估陆-气耦合强度对于研究气候变化等具有重要的意义。本文使用ERA-interim1979-2018年资料,首先利用多种陆-气耦合指标对中国夏季的陆-气耦合强度进行评估,挑选出“热点”区并量化评估其耦合强度的时空变化特征;其次,挑选出影响“热点”区陆-气耦合强度的关键因子,并定量评估其对气温和降水的贡献;最
学位
青藏高原的强烈变形和隆升主要受作用于印度与欧亚两板块间持续碰撞挤压和楔入,导致青藏高原地震分布范围广、频次高,是非常典型的强震多发地区。青藏高原应力集中在周缘的造山带,地震活动频繁发生在大型走滑和逆冲断裂带上以及附近区域。青藏高原范围内发生的中强地震,发震频率高,分布广泛,但研究程度却远低于大地震。获取中强地震的震源参数和滑动分布是为了能更好的研究地震机理、产生原因、触发关系,对震源破裂过程、地震
学位
枫香树(Liquidambar formosana Hance),民间又称枫树,是金缕梅科(Hamamelidaceae)枫香树属(Liquidambar Linn.)植物,萌生力极强,在我国秦岭及淮河以南各省,东南亚北部及朝鲜南部均有分布,是我国南方的常见树种。在我国的传统中医药学理论和实践中,枫香树的根、果实、叶、树皮和树脂都具有重要的医用价值。其叶可以解毒、止血;其果实又名路路通,可以祛风除
学位
党的二十大报告指出,我们必须增强忧患意识,坚持底线思维,做到居安思危、未雨绸缪,准备经受风高浪急甚至惊涛骇浪的重大考验。忧患意识和底线思维是中国共产党人战胜各种风险挑战、不断从胜利走向胜利的重要价值观念和工作方法。中国共产党人传承和弘扬了中国传统文化中的忧患意识,将忧患意识作为应对不确定性和风险社会挑战的实践理性与行动哲学。底线思维是中国共产党一以贯之的治国理政方法论,坚持积极作为和努力进取的底线
期刊
研学实践已纳入学校教育教学计划,小学阶段的研学实践以乡土乡情为主,丰厚的乡土文化是研学的基础和支撑。因此,农村小学要挖掘本地资源,做好研学体系建设,扎实开展实践,发挥实践育人之功能。本文着重分析了乡土文化育人途径,学校在乡土研学方面做出的努力,并结合实际教学提出了关于如何开发和利用乡土文化进行研学实践的教育策略,从研学资源的开发、甄选和提炼研学目标为出发点,以课题为引领,以研究促发展为先导,从规划
期刊
学位
生物实体关联预测是现代生物信息学的重要研究方向,探讨RNA、疾病、药物、蛋白质等生物实体之间存在的关联有助于各种人类复杂疾病病理的研究、疾病生物标志物的识别鉴定、针对靶点的药物研究以及疾病预防与诊治。验证生物实体关联的生物实验准确率高但是实验周期长,且成本昂贵。近些年来,越来越多的计算方法被提出作为鉴定生物实体关联的有效补充手段,所以开发能够准确、有效的预测潜在生物实体关联的计算方法具有重要的研究
学位
伴随着计算机视觉的不断发展与进步,图像融合也被推动着改进和更新。单一类型的遥感器受到其自身物理条件或是外界环境因素的限制,获取的遥感数据往往不能满足现代科技和生活日益增长的应用需求。在实际应用中,低空间分辨率的多光谱图像包含多个光谱带,能够呈现多种不同的颜色,可用于地物,土地覆盖类型以及海洋光谱分布特性的识别。而低光谱分辨率的全色图像能够清晰的描述观察目标的细节纹理及轮廓等结构信息,可用于环境监测
学位
群体合作是自然界和人类社会赖以生存和稳定运行的基础,如何揭示群体合作行为的涌现机理和激发机制,也成为了近年人工智能领域最具挑战性的科学难题。演化博弈论作为定量刻画群体合作、竞争过程中个体行为决策规律的理论方法,对研究人类行为决策模式提供理论支持。目前,各国也制定了相应的研究计划,明确了博弈论驱动的行为决策研究在人工智能中的重要地位。本文在复杂网络的基础上,运用演化博弈理论,提出以下两种行为决策模型
学位
该研究以癸酸为酰基供体,对黑米矢车菊素-3-O-葡萄糖苷(C3G)酶法修饰。半制备型高效液相色谱(Semi-HPLC)用于纯化产物,质谱(MS)用于鉴定产物的结构。结果表明,酰化反应发生在C3G的葡萄糖苷上,单酰化产物为矢车菊素-3-O-(6”癸酰)葡萄糖苷(ACD)。通过体外模拟消化试验分析ACD在消化过程中的稳定性。并在体外发酵中,研究它对肠道菌群的调节作用及对短链脂肪酸(SCFAs)和乳酸产
期刊