论文部分内容阅读
癌症是一种复杂的疾病.mRNA与microRNA表达谱数据分析对癌症的治疗与诊断有着重要作用.本文主要利用mRNA/miRNA肿瘤表达谱数据,探测癌症相关的生物信息问题,如下所示: (1)提出了一种有效的探测癌症关键分子的机器学习算法—T+MCMC+KNN.该算法是一个结合T检验,马尔可夫链蒙特卡罗算法(MCMC)和最近邻近法(KNN)的一个机器学习算法.我们基于17814基因,522个样本的mRNA表达谱数据,选取100个关键基因;基于1222个microRNAs基因,522样本的microRNA表达谱数据,选取50个关键microRNA基因.我们发现关键基因分子在癌症样本的表达水平要显著低于在正常样本中,microRNA关键分子在癌症样本的表达水平要显著高于在正常样本中. (2)提出了非负矩阵分解算法聚类癌症样本.该算法整合了mRNA和microRNA两种表达谱数据.实验测试了乳腺癌数据,包括715样本,7982个microRNA与mRNA分子,有效地将715个乳腺癌样本聚为6类. (3)设计了一种探测microRNA-gene调控网络的机器学习算法——WLasso.该算法首次将microRNA与gene序列信息使用到惩罚回归模型中.所谓惩罚是如果microRNA与gene的序列信息互补低,那么WLasso算法中惩罚系数越大(它们存在调控关系的概率越低).该算法有效的构建了卵巢癌microRNA-gene调控网络. (4)由于microRNA-gene的调控网络中,具有一些社团结构,因此我们设计了最速下降算法优化模块度指标探测调控网络中的社团结构.基于(3)的卵巢癌microRNA-gene调控网络,该算法有效地探测到一个具有17个社团结构的最优划分.这些社团结构中microRNA与基因的调控关系对于治疗,理解癌症机制扮演重要的角色. 最后,总结全文,并提出了相应的展望.