基于特征选择的肝癌生物标志物筛选方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:curtises
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肝细胞癌(Hepatocellular Carcinoma,HCC)的高发病率和高致死率使其受到广泛关注,我国更是肝癌负担最重的国家。随着肝癌病例和死亡人数的逐年增加,寻找有效、可靠的肝癌生物标志物是实现肝癌早期诊断的重要手段。癌症基因组图谱(The Cancer Genome Atlas,TCGA)生成的高通量组学数据和日渐成熟的单细胞测序数据为发现肝癌生物标记物提供了宝贵的数据资源。
  尽管已有多种特征选择方法被用来筛选癌症生物标志物,但许多重要问题一直被忽略:(1)生物标志物的可复现性被忽略。在筛选生物标志物时,不同方法选出的生物标志物几乎毫无关系,甚至同一方法两次实验的结果也不尽相同。(2)癌症识别模型的可解释性与分类精度同样重要。如果生物标志物筛选过程不可解释,所得结果的可信度会大大降低。(3)基因通常被当作孤立的点,基因间的调控关系被忽略。针对上述问题,本文提出了两种包裹式特征选择方法,意在寻找稳定、可靠的生物标志物。同时,对特征选择过程做有理论支撑的解释,建立可解释的生物标志物筛选策略。本文的主要研究内容如下:
  (1)本文构建了一种稳健的肝癌生物标记物筛选方法。具体来说该方法是基于六种不同的机器学习算法,分别实现利用交叉验证的递归特征消除(Recursive Feature Elimination With Cross-Validation,RFE-CV)方法。通过不同方法筛选得到的各基因集合的重叠部分,得到稳健生物标志物。除基本的分类性能指标外,引入信息学中的赤池信息准则(Akaike information criterion,AIC),解释基于机器学习的特征选择过程。该组合方法筛选得到的生物标记物相比于单一方法所得结果具备更丰富的生物学意义,分类性能更好。
  (2)为进一步提高模型可解释性并考虑基因调控关系,本文提出基于合作博弈的特征选择方法(Cooperative Games based Feature Selection,CG-FS),并应用于从基因调控网络识别肝癌生物标记物。CG-FS是一种过程可解释的网络模块探测方法。在本文中,将基因到模型的预测过程看作为合作博弈过程。每个特征在组合中的贡献可以通过合作博弈论定量刻画,这使得生物标志物的选择过程完全可解释。充分考虑基因间的相互作用,网络模块的扩展策略建立在基因间的有向调控关系之上。CG-FS的方法不仅被AIC统计验证,而且发现AIC与分类评价指标之间存在高度相关性。基于支持向量机的递归特征消除(Support Vector Machine based Recursive Feature Elimination,SVM-RFE)设置对照试验,通过对比研究,CG-FS获得了更好的分类结果,验证了该方法的有效性。通过功能富集结果,发现该方法选择的模块标记物与肝癌的发生发展过程密切相关。
其他文献
胶质瘤是最常见的原发性脑肿瘤,有着高病发率、高死亡率的特点,严重危害着人类的生命健康。随着医学成像技术的发展,医学影像已成为辅助医生进行医学诊断和研究的重要手段,其中核磁共振成像(Magnetic resonance imaging,MRI)技术,由于其具有非入侵性、良好的空间分辨率和软组织分辨率等优点,被广泛应用于脑成像。脑肿瘤分割有助于医生对患者做出早期诊断、治疗规划和预后评估,但是手动分割费
蛋白质是生命活动的主要承担者,其序列决定生物的功能和性质,蛋白质功能预测能够揭示生命的本质现象和生理机能。因此,基于序列对蛋白质功能的探索不断推进。自人类进入后基因组时代,蛋白质序列的数量呈爆炸式增长,然而使用传统的实验方法实现蛋白质功能预测成本高昂、周期较长,且难以完成数量巨大的蛋白质功能测定。计算机技术的迅猛发展促进了数据挖掘和机器学习的研究进展,计算机建模方法为生物序列功能的研究提供了另一条
重大疾病的致病机理非常复杂。从遗传角度来看,复杂疾病是由基因-基因、基因-环境交互作用导致的结果,因此寻找致病基因是复杂疾病研究中的核心问题。基于高通量技术获得的多组学数据,能从不同层面反映复杂疾病分子变化图谱,有助于揭示复杂疾病致病机理。因此,开发高效的生物信息学方法,从多组学数据中识别出复杂疾病的致病基因成为非常关键的科学问题。现有研究方法大多基于连锁分析和全基因组关联分析,不能有效确定致病基
冠心病严重威胁我国居民健康,给家庭和社会带来沉重负担。如何在患病前控制冠心病的发生,如何在患病后降低冠心病的危害,已成为亟需认真研究解决的重大课题。心电图检查是冠心病临床诊断最基本和最常用的无创性方法。由于心肌缺血可造成心室复极异常和心室肌跨壁复极离散度升高,反映心室复极变化的心电学标志物受到普遍关注,具有代表性的包括QT间期变异性(QTV)、TpTe间期变异性(TpTeV)、校正QT间期、TpT
学位
血压包括收缩压和舒张压,作为人体的重要生理参数,除了高低水平外,它的动态变化也是心脏和血管功能健康状况评估的重要依据。研究表明,血压的变异性与心血管疾病的发生关系密切,血压的监测和管理,对于临床诊断和个人预防高血压具有重要的意义。现有的袖带式血压计只能间歇的测得瞬时血压值,无法获得动态血压。目前的无袖带连续血压测量方法主要是基于心电图(ECG)、光电容积脉搏波(PPG)和心冲击图(BCG)三种信号
学位
抑郁症是当前世界上患病人数较多的心理疾病之一,近年来发病率呈增长趋势。抑郁症容易使患者情绪持续低落,出现失眠、食欲不振等症状,严重者会逐渐脱离社会,导向自残乃至自杀。不同程度抑郁症对应着不同的治疗方式,因此抑郁症的早期诊断与状态检测具有重要的现实意义。当前抑郁症诊断面临着如下问题:临床上诊断依赖于量表和精神科医生的判断,缺乏客观指标;不同抑郁状态之间生理发展机制尚不明确;在全球范围内医疗资源短缺。
学位
医学影像是研究临床疾病的重要工具,它对于疾病的早筛、治疗以及后续的康复、监测和管理都起着不可替代的作用,但是传统的人工医学影像诊断方法仍存在着诸多问题,如医患两方供需不平衡、医院人员负担重;医学影像诊断主观性强、经验要求高等。随着深度学习在图像领域的快速发展,近些年来许多深度学习方法也逐渐用于医学影像的处理和分析,进而辅助医生进行自动诊断,提高工作的效率。但是考虑到医学识别任务的复杂性和医学影像小
学位
人类拥有高度灵巧的手,可抓握物体完成精细复杂的操作任务。大脑在控制手完成各种抓握动作时,可充分参考由手部反馈的接触感知信息,并与视觉及本体感觉等其他模态的感知信息进行有效融合,在根据任务要求进行运动规划决策的基础上,通过对相关肌肉发送动作命令来完成抓握动作。这种由外周和中枢密切结合形成的感知运动融合机制的核心问题是:中枢神经系统如何整合不同模式的感知信息,如触觉和视觉信息进行运动的规划,以及中枢神
抓握操控物体是手的重要功能。为了实现精确而稳定的抓握,人体需要通过视觉和触觉等多种感觉系统实时接收环境信息,并通过中枢神经系统的整合形成决策,然后向外周神经发送运动命令,通过激发肌肉收缩完成抓握动作。研究在精准抓握的过程中,大脑是如何整合对于此行为至关重要的触觉和视觉的信息并实现对物体抓握操控的闭环控制是神经生理学领域的研究中意义重大。然而,传统的研究方法均只能将触觉和视觉的效应进行叠加,通过对单
大气颗粒物对人们健康危害影响日益严重,并且这种影响会根据来源的不同和粒子大小而产生不同的影响。本研究中,由于美国加州的Imperial Valley长期存在空气颗粒物的污染问题,故以Imperial Valley作为典型污染地区来采集环境颗粒物,与Parlier和Sacramento的大气颗粒物做比较,来研究不同粒径尺寸PM的化学成分和毒性分析,并进行急性暴露效应研究。本研究通过一个PM采样和测量