食管鳞癌生物关键分子挖掘及预后分子预警模型建立

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:eriwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
食管鳞状细胞癌(Esophageal Squamous Cell Carcinoma,ESCC)是我国常见的消化道恶性肿瘤之一,其五年生存率不足25%。ESCC的发生、发展是一个环境-遗传-基因相互作用、多阶段演进的复杂过程,深入探究ESCC发生、发展过程中相关的临床特征和分子特征,是改善ESCC患者早期诊断、精准治疗和康复策略的重要基础。传统的生物医学常以单个分子(基因、转录本或蛋白质)具体功能为研究对象,其可在一定程度上揭示分子水平上的生命活动特征,但从系统、整体等多角度的探索较为缺乏。随着计算机技术的发展,机器学习、深度学习、数据挖掘技术和生物信息学在肿瘤研究领域得到越来越多的应用。本研究依据ESCC基因表达谱数据、生物分子互作网络、免疫细胞数据,以机器学习算法、基因共表达网络分析为基本工具,针对ESCC分子特征、肿瘤分类、特征选择和预后模型建立等相关问题展开研究,并在机器学习算法基础上提出了新的ESCC基因表达谱数据分析方法。本文主要研究内容如下:采用多种机器学习算法,筛选并验证ESCC预后相关关键基因。本研究综合检索以往ESCC相关研究,提取到38项研究中报道的48个与ESCC患者生存、复发或治疗相关的基因;针对ESCC生物标志物可重复性差的问题,本研究提供两种策略进行ESCC生物关键分子挖掘和验证。第一,本研究提出综合多种机器学习算法和Cox比例风险回归算法,建立多个相互独立的预后模型,共同决策、选择最佳预后因素。将在多种方法中均标注为重要的分子变量,确定为预后相关关键分子,并在独立样本集中进行验证,为临床应用提供依据。确定SFN可作为ESCC潜在的预后分子靶标。第二,由于数据集中自变量为生存类型数据,本研究利用四种基于生存数据的特征重要性评价方法(单因素生存分析、随机生存森林、LASSO-Cox和Rbsurv),评估所有48个分子的预后相关性。最后联合多种特征筛选方法所得结果,构造了预后预测性能更好的特征。基于ESCC差异表达分子相互作用网络模块和机器学习算法,探究ESCC分子特征及分子网络模块的预后作用。本研究首先利用ESCC差异表达基因和差异表达蛋白进行生物学富集分析,探索ESCC的分子特征;随后应用Netbox分子互作查询工具,建立分子网络模块(指纹基因集),并应用随机生存森林算法筛选各个模块ESCC预后相关基因,应用多因素Cox回归方法构建分子模块特征;随后,使用LASSO-Cox算法筛选预后相关的模块特征,并建立纳入多个分子模块特征的ESCC预后模型。结果表明,基于多个分子网络模块建立的预后模型,预后预测效能显著优于单个分子网络模块。肿瘤转移是导致ESCC预后差的关键因素之一,淋巴结转移是肿瘤转移的一种方式。ESCC淋巴结转移相关分子机制尚不明确,针对这一问题,本研究利用机器学习工具做出如下探索。以m RNA表达谱数据为基础,首先应用机器学习算法筛选淋巴结转移相关基因,并建立ESCC淋巴结转移诊断模型;随后通过富集分析探究了淋巴结转移相关分子的生物学意义,挖掘与ESCC淋巴结转移相关的重要生物学通路。最后,为探究不同特征选择算法对ESCC淋巴结转移预测模型的影响,本研究提出一种基于随机森林的特征选择方法Boruta-rf,用于ESCC淋巴结转移相关重要分子的筛选,结果表明其效果优于Boruta算法。免疫治疗是众多ESCC治疗方案中最具潜力的方法之一,本研究从免疫角度出发,根据ESCC肿瘤组织免疫特征,建立ESCC诊断、预后相关模型。首先,采用CIBERSORT和ESTIMATE方法计算每个样本的免疫特征,并利用加权基因共表达网络分析(WGCNA)方法,最终挖掘到8个与免疫细胞溶解活性相关的基因,可作为潜在的ESCC免疫治疗参考靶点。然后,依据LASSO-Cox算法筛选样本免疫特征,并建立ESCC诊断模型,该模型在测试集和外部验证集中均有较好的诊断性能。随后,为了进一步探究免疫特征筛选对诊断模型的影响,我们提出一种基于特征扩充和XGBoost算法的特征选择算法Boruta-XGB。分别利用Boruta、Boruta-rf和Boruta-XGB筛选的免疫特征构建ESCC诊断模型,结果表明,Boruta-XGB特征筛选效果最佳。最后,基于免疫特征构建免疫评分,并联合临床特征和免疫评分构建Nomogram图,其构造的Nomogram-score为预后风险因素。
其他文献
<正>我们知道,无限循环小数和分数都是有理数,任何有理数都可以写成有限小数或无限循环小数的形式.那么,怎样把无限循环小数化成分数形式呢?下面,让我们见识一下一元一次方程的无限力量吧.一、化纯循环小数为分数例1把0.2獉化成分数形式.分析把循环小数化为分数,难在无限的小数位数,要想办法剪掉无限循环小数的"大
期刊
该研究以冬季高温大曲为研究对象,考察高温大曲原料粉碎度、母曲用量、老草用量、拌合水分用量4个制曲工艺关键控制点对高温大曲发酵顶温、挺温时间及等级曲比率的影响,采用正交试验优化其制曲工艺条件,并对大曲发酵顶温和挺温时间与大曲感官品质进行冗余分析(RDA)。结果表明,最佳制曲工艺条件为老草用量100%、拌合水分37%、原料粉碎度77%、母曲用量7.5%。在此优化条件下,特级曲比率为27%。冗余分析结果
期刊
目的:分析CMTM6在正常脑组织及胶质瘤组织中的表达及其与脑胶质瘤临床特征的关系,研究CMTM6对人脑胶质细胞瘤细胞增殖、侵袭迁移能力的影响及其分子机制。方法:1.通过GEPIA网站在线分析CMTM6在胶质瘤组织及正常脑组织的表达差异。2.通过分析CGGA数据库中胶质瘤数据,探究CMTM6表达与临床病理特征及预后关系。3.应用Western blot检测人脑正常胶质细胞株HEB、人脑胶质瘤细胞系U
学位
强化学习是一种重要的无模型机器学习算法,适用于缺少先验知识或高度动态化的复杂优化决策问题。然而,传统的强化学习研究建立在马尔科夫决策过程的基础之上,主要针对有限的离散空间,状态与动作的相关信息储存在表格当中,值函数采用查表法计算、更新。当面对具有连续空间的任务时,即使进行离散化处理,表格型算法也难以获得理想的学习效果。近似强化学习利用函数逼近思想,对价值函数或策略函数近似表示,通过学习逼近器参数获
学位
诗歌,因其体式的独特性和意蕴的丰富性,成为教学的一大难点;而作为最富语文味的文本,诗歌在培养与提升语文学科核心素养中发挥着巨大的作用。文有文式,教有教法,教学时要立足诗歌本身,以其构成要素语言、意象和技法为抓手,以具体的诗歌内容为基础进行深耕,即可解得诗意、味得诗情、品得诗美,这样,诗歌在学科素养的涵养与提升中所起的作用才能得以体现。
期刊
伴随着我国社会和经济的迅速发展,人们出行的需求也随之提升。在这个进程当中,新能源汽车的应用越来越普遍,加上石油、天然气能源缺乏及国家对新能源车补贴的优惠政策,从而推动了新能源汽车行业的崛起。与传统汽车进行比较,新能源汽车的动力装置出现了较大的转变,可以在符合应用规定的前提下落实低碳节能意识,是将来汽车领域进一步发展的重要方向。本文根据对新能源汽车常见的故障检测及修理技术展开了探索,并且提出相应的维
期刊
矿石破碎加工是磨矿过程的重要环节,磨矿工艺决定了矿石的生产效率和加工质量。矿石自身的破碎特性直接影响矿石破磨效果,是磨矿工艺参数制定的关键因素。矿石破碎试验和磨矿过程有相当大的区别,致使采用试验得到的矿石破碎特性制定的磨矿工艺难以取得良好效果,是磨矿工艺优化和磨机选型急需解决的难题。离散元仿真可以模拟矿石破碎过程,其准确性取决于矿石模型参数与实际矿石破碎特性的符合程度。提高离散元建模精度始终是矿石
学位
资金贯穿于企业发展始终,是重要的生产要素,也是整个财务运转的基础。资金链的紧绷通常导致企业经营发展处处掣肘,部分企业也会因为资金的意外断裂而被迫停工倒闭。融资主要是为企业筹集发展所需资金,所以针对融资问题的研究,不仅提升融资效能,还帮助企业达成融资目标。目前全球经济下行,国内面临供给冲击、需求收缩、预期减弱三重压力,中小企业整体经营环境恶化,在此背景下对HX公司融资问题研究更有实践意义。HX公司作
学位
随着图像采集技术和图像存储技术的不断发展,人们在日常生活中面对的图像信息越来越多。相对于文本数据,图像信息更加生动形象,易于理解。然而,在实际应用场景中,受拍摄角度、背景、光照等各方面因素的影响,训练集和测试集通常会存在分布差异问题,重新对图像进行采集和标注又是一项非常耗时且繁琐的工作。在训练集与测试集存在分布差异的情况下,传统的图像分类技术很容易受到影响,造成分类性能的急剧下降。迁移学习(Tra
学位
旋毛虫是一种危害严重的人兽共患寄生虫。旋毛虫通过排泄分泌产物逃避宿主的免疫系统,在宿主体内形成包囊,从而实现寄生宿主。核酸酶存在于绝大多数物种中,参与细胞的多种生理过程。脱氧核糖核酸酶(deoxyribonuclease,DNase)是一类作用于DNA的核酸酶,其中DNase II与细胞凋亡和免疫保护等有关。与其他物种相比,旋毛虫中具有125种DNase II家族蛋白,但目前对DNase II家族
学位