关键基因和预后基因标志物识别研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:lxz119110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,以基因组学、转录组学和蛋白质组学数据为核心的组学大数据数据量迅速增长,数据类型不断丰富,使越来越多层面的生物机理被揭示,通过多组学数据识别特殊功能的基因成为了基因识别领域的重要研究内容。关键基因是维持生物体生命活动必不可少的基因,预后基因标志物是指一个或者一组可以影响患者疾病进展情况的基因。针对关键基因识别的研究对于发现致病基因和药物靶标有着重要意义,也有助于从基因分子水平促进了解细胞的生长调节过程。蛋白质是基因转录翻译的产物,蛋白质相互作用(Protein-Protein Interaction,PPI)网络是指由蛋白质之间的相互作用构成的网络。目前虽然已经提出了很多种基于PPI网络的关键基因识别算法,但是识别精度还有待提升,以进一步促进发现细胞生长所必需的基因。针对预后基因标志物识别的研究对于准确评估疾病的进展情况具有重要意义,也有助于指导患者分组以及精准医疗。神经母细胞瘤是儿童中最为常见的颅外实体瘤,常用的预后标志物有MYCN基因扩增状态、肿瘤转移和阶段等。神经母细胞瘤患者往往表现出染色体不稳定以及MYCN基因频繁扩增现象。由于目前缺少充足且可靠的神经母细胞瘤染色体数据,以及与其配套的患者临床数据,所以针对神经母细胞瘤染色体异常的预后基因标志物以及结合染色体和MYCN基因异常状态的预后基因标志物还缺乏全面而系统的研究。本文主要针对关键基因识别和预后基因标志物识别的以上问题进行研究,取得的主要成果如下:对基于PPI网络局部拓扑属性的关键基因识别进行研究。针对基于PPI网络拓扑属性的关键基因识别算法精度低的问题,提出了一种结合局部拓扑属性、全局拓扑属性和蛋白质复合物信息的关键基因识别算法--LBCC。由于大多数关键基因位于稠密子图中,为了定量描述子图的稠密度,首先基于路径长度定义了节点的k-邻域子图(k>=1)和k-邻域密度,并通过实验验证了 1-邻域密度、2-邻域密度在关键基因识别中能够起到非常重要的作用。然后,提出了基于1-邻域密度、2-邻域密度、中介中心性和蛋白质复合物信息的关键基因识别算法,并通过实验优化了这些属性的权值。在公开酵母数据集上的实验结果表明,在YMIPS和YMBD数据集上,LBCC与当时最新的LIDC方法相比识别精度提高了 10%左右。最后,将此算法运用于人类PPI网络中,识别出5个潜在关键基因。本研究的主要创新点为提出了PPI网络中的1-邻域密度、2-邻域密度的描述方法,并将其应用于关键基因识别算法中,有效提高了识别精度;将该识别算法运用于人类数据集中,发现了5个人类潜在的关键基因。对基于随机森林模型的关键基因识别进行研究。为了进一步提高关键基因识别精度,提出了一种基于随机森林模型的计算方法--CoTB。研究表明关键基因不仅仅与PPI网络拓扑结构信息相关,而且还和基因编码的蛋白质内在属性信息息息相关。因此,首先详细分析了同源蛋白质信息和亚细胞定位信息,并对他们进行了定量描述。然后,采用1-邻域密度、2-邻域密度、拉普拉斯中心性、蛋白质复合物信息、同源蛋白质信息和亚细胞定位信息这七种属性,通过随机森林模型以提高关键基因识别精度。最后,将此模型运用在四个不同的酵母数据集中进行验证。实验结果表明,提出的算法CoTB的关键基因识别精度高于当时最优的方法—SON,CoTB在四个数据集上的TOP100水平的识别精度分别达到了 89%、78%、79%和85%。最后将此算法运用于人类PPI网络中,识别出五个潜在的关键基因。本研究的主要创新点为定量描述了同源蛋白质信息和亚细胞定位信息,结合此信息并利用随机森林模型有效提高了关键基因的识别精度。对基于染色体状态的预后基因标志物识别进行研究。针对神经母细胞瘤染色体拷贝数实验数据短缺问题,提出了一种基于基因表达数据预测染色体子片段拷贝数(inferred Copy Number Variance,iCNV)的算法,以反映染色体子片段的异常状态。基于染色体子片段iCNV,通过Cox 比例风险模型,发现了 58个拷贝数异常的染色体子片段与患者预后之间存在显著相关性。并且,在排除了潜在干扰因素(例如MYCN扩增状态)后,发现7个拷贝数异常的染色体子片段表现出与预后的显著相关性。在这7个染色体子片段中,Chr11P14中的基因是潜在的可以作为临床应用的预后基因标志物。并且所提出的计算模型具有良好的可扩展性,可以被运用到其他癌症类型中以研究与染色体子片段异常相关的预后基因标志物识别问题。本研究的主要创新点为设计了一种基于基因表达数据预测染色体拷贝数的方法,通过该方法发现了神经母细胞瘤中与染色体子片段异常相关的潜在预后基因标志物。对基于染色体和MYCN基因状态的预后基因标志物识别进行研究。由于神经母细胞瘤患者往往不仅表现出染色体不稳定现象,还表现出MYCN基因高频扩增的现象,但是却只有很少的相关生物实验数据。所以针对此问题,提出了两种基于基因表达数据识别基因标志物的算法,分别用于识别与染色体异常相关的基因标志物和与MYCN基因扩增相关的基因标志物。实验结果表明,利用该算法识别出的MYCN、Chr1p和Chr11q的基因标志物,可以正确反映MYCN基因扩增、Chr1p丢失、Chr11q局部丢失和Chr11q丢失现象,并且这些基因标志物都表现出与预后的相关性,与临床结论一致。最后将这些基因标志物进行整合,作为新的神经母细胞瘤预后基因标志物,通过Cox 比例风险模型对患者预后进行预测。实验结果表明,与只考虑临床信息或者MYCN状态的预后标志物相比,本文提出的预后基因标志物显著提高了患者的预后预测精度,是潜在的可以作为临床应用的预后标志物。本研究的主要创新点为提出了一种基于基因表达数据识别基因和染色体异常的基因标志物算法,通过结合这两种基因标志物信息有效地提高了神经母细胞瘤患者预后预测的精度。
其他文献
图谱理论的内容在理论化学特别是在Huckel分子轨道模型的化合物反应性、稳定性和存在性等化学性质的研究中有重要的应用.基于此应用,图谱理论得到了许多学者的广泛研究.图的邻接矩阵的秩等拓扑指标既是图的不变量也是重要的谱参数,对它们的研究是图谱理论中的热门课题之一.图秩与其他拓扑指标的研究方法可以相互渗透,本文研究了特定图类的邻接矩阵的秩以及与其密切相关的一些拓扑指标.作为图的一种不变量,图的连通性不
由于航天器尺寸的限制,空间可展开结构在发射前必须进行折叠,当航天器在轨工作后,再使结构展开以达到工作状态。因此,既具有较高结构性能和形状记忆功能,又可以承受很高折叠变形率的弹性记忆复合材料(Elastic Memory Composite,EMC)在空间可展开结构中有着巨大的应用潜力。EMC材料由连续纤维增强形状记忆聚合物(shape memory polymer,SMP)基体复合而成。在SMP基
混沌(Chaos)是指发生在确定性系统中的貌似随机的不规则运动.混沌动力学是复杂性科学的一个重要分支,也是近几十年来的一个热门学科,现已发展成相对完备的体系,并在众多领域显示出强大的生命力.差分方程(离散时间系统)在日常生活及各领域有广泛应用.用混沌的相关理论来分析研究交通中存在的问题,有助于人们把握交通系统的规律,如如何判别混沌及其现实意义,及时采取措施阻止无序状态,能为解决交通流问题开辟了新的
2000年,Ahlswede等人提出了一种新型的网络数据传输方式,即网络编码.与传统路由的网络相比,网络编码提高了网络的组播吞吐量和网络数据传输的安全性,降低了网络带宽资源的消耗和节点的传输能耗.因此,网络编码被认为是未来网络的核心技术,已受到各国学者的高度关注.由于无线网络的信道通常是时变的,易造成数据包的丢失和错误.为了解决此问题,K¨otter和Kschischang在2008年提出了子空间
2005年1月6日下午,我们与中央电视台的记者以及两位资深的潜水教练一起兴冲冲地登上了2000多吨排水量的"琼沙2号"补给船,前往慕名已久的西沙群岛,次日上午约10点到达了西沙群岛永兴岛。其后的两周,我们一起在永兴岛及周边的七连屿、东岛进行了珊瑚礁生态科学考察。时值冬季,西沙海域风高浪大,条件非常艰难,但我们最终克服了种种困难,成功地完成了考察任务。这次考察的主要有三个目
期刊
低秩约束矩阵优化是指带有低秩集约束的矩阵优化问题,在统计与机器学习、信号与图像处理、通讯与量子计算、系统识别与控制、经济与金融等众多学科领域有着广泛应用,是当前最优化及其相关领域的一个重点研究方向.秩函数是非凸非连续并带有组合性质的函数,通常来说,低秩约束矩阵优化是NP-难的,传统的凸优化理论很难处理这类问题.因此,对于直接处理低秩约束矩阵优化的最优性理论很少被研究.本文主要借助于可行集的切锥和法
方阵上的组合设计一直是人们研究的热点.常见的两两正交的拉丁方、Room方、Howell设计、Kirkman方都是方阵上的组合设计,它们的存在性问题已相继被解决.广义Howell设计(GHD)既是一类双可分解的填充设计,又是一类方阵上的组合设计,同时推广了 Howell设计和Kirkman方,具有重要的理论意义.另一方面,为了提高物理不可克隆函数(PUF)响应的可靠性,Cherif等提出了多重常重码
本学位论文主要对几类散度型椭圆方程的Calderon-Zygmund型估计进行了一些研究,主要分为四个问题:非一致椭圆方程弱解的W1,γ(·)-正则性以及对应的双障碍问题和渐进问题的Lγ估计,具Lp(·)logL-增长的非线性椭圆方程弱解的Lorentz估计及其双障碍问题的Lt估计,具部分正则性系数的非线性椭圆方程弱解在变指数幂下的Lorentz估计及单障碍问题的Orlicz估计,和稳定型斯托克斯
作为密码学的重要组成部分,安全多方计算已经成为国际密码学界的研究热点。它打破了传统意义上的“伙伴”关系,以保密计算的方式,实现了对手之间看似不可能的共赢对话。早期安全多方计算的研究者更多关注安全多方计算通用方法的研究。但是,这种方法在解决具体应用问题,或效率不高、或代价太大。因此,针对特定问题量身设计安全多方计算协议才更加符合协议参与方的要求。当下,安全多方计算正朝着高效可用和高安全保障的方向发展
带限信号外推是由信号在时间区间[-T,T]上的已知部分重建信号的未知部分,它是一个经典的信号重建问题,并有广泛的应用。研究带限信号外推具有理论意义和应用价值。论文主要贡献与创新点如下:(1)带限信号外推在频域上可以表示成有唯一解的积分方程(32)F(28)g的求解。将(32)F(28)g离散为线性方程组Ax(28)b,并且假设该线性方程组有唯一解。当T小时,带限信号外推理论上的不适定性导致Ax(2