组合生物标记物识别的最优化方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gwwpw8775
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
组合生物标记物在研究复杂疾病如癌症的早期诊断和预后及其致病机理、细胞分类及细胞的分化机制等方面起着至关重要的作用。作为一个NP-难的组合优化问题,快速有效地识别一组生物标记物是生物信息学中重要的挑战之一。随着高通量技术的发展和进步,针对多种表型的多层次组学数据的大量涌现,组合生物标记物的研究也逐渐从单层次的数据集扩展到多组学、单一表型扩展到多表型的系统分析。集成分析这些数据对复杂疾病的治疗和预防,细胞特异性识别有重要的作用。然而,由于生物学数据维度高,噪声大,不同表型、不同层次数据集之间的关系复杂,很多挑战性的热点问题有待解决。本论文主要围绕组合标记物识别的几个热点问题进行研究,以最优化方法为手段,从单层次数据集到多层次数据集,从一种疾病(一类细胞)到多种疾病(多类细胞)展开研究,得到的研究成果主要包括:  1、针对单层次数据集,构建了组合生物标记物识别的混合整数规划模型和算法,对识别一组风险生物标记物对于癌症的早期诊断具有重要意义。为了提高诊断的精度,我们设计了混合整数优化模型,该模型允许我们改变选择特征的个数,选择一组个数相对少的生物标记物且得到好的分类精度。在结直肠癌的血液数据集上,我们和已有的算法做了比较,结果表明我们的方法可以快速有效地识别一组生物标记物,并提高了诊断的精度。另外,它可以很好的去除冗余并选择互补性且可解释性强的生物标记物。  2、提出了单层次数据集中组合预后生物标记物识别的算法NCC-AUC。AUC是生存分析中常用的一致性指标(concordance index,CI)的近似,该算法基于AUC并采用L1范数来选择组合预后生物标记物。我们在乳腺癌的基因表达谱数据集和非小细胞肺癌的临床数据集上和经典的分类模型、生存分析模型做了比较,我们的算法均显现出一致的优势。另外,我们的方法是鲁棒的并且能选出具有可解释性的生物标记物。  3、对于多层次数据集中组合生物标记物识别问题,提出了group lasso优化算法LPGLO。该算法基于group lasso的思想,并最小化每一个层次中生物标记物的个数并同时最大化留一法的精度。我们的算法在结直肠癌的血液和质谱两个层次数据集中识别了一组联合标记物(joint-biomarker)并得到了很好地精度。进一步和单个层次的数据集结果比较发现,我们的算法提高了诊断的精度,并且很好的避免了单个数据集得到的冲突结果。它可以为多层次数据集的研究提供一种新途径。  4、提出了多种疾病的组合生物标记物识别的系统优化算法。该算法从癌症本身的相似性出发,在每个癌症中找到特异性的生物标记物,并基于所有癌症特异性生物标记物中得到相似性生物标记物,从而同时识别癌症的相似性和特异性生物标记物。我们在22种癌症的长非编码RNA数据集上验证了我们的模型,并找到了癌症特异性和相似性的生物标记物,对相似性的生物标记物,我们进一步对其功能进行分析,研究癌症的共同机理。  5、提出了多个细胞组合生物标记物识别的优化模型和算法。该算法最大化细胞特异性分数并同时保留不同细胞类型的拓扑结构。我们在29个组织的表层基因和转录因子表达数据集上验证我们的算法,并和经典的降维模型与细胞特异性生物标记物模型做了比较,进一步验证了我们算法能同时识别细胞特异性的生物标记物并能很好的保持细胞之间的相互关系。
其他文献
该课题主要研究用自适应小波求解非线性椭圆型算子方程.作者发明了构造贪婪算法.用此方法并且结合树逼近方法构造了一个自适应策略.基于此自适应策略,作者构造了求解一类非线
该文主要讨论了两类二阶脉冲时滞微分方程的渐近性态及振动性.得到了关于含有x′(t)的脉冲微分方程及脉冲时滞微分方程的一切解振动的判定定理.然后讨论了二阶线性、非线性脉
经济发展的重要标志之一是居民生活水平的提高,而城镇居民消费水平和消费结构的变化则从一个侧面反映了人民生活水平的变化趋势.该文首先综合了成分向量和数量经济模型的理论
该文深入研究了多重网格方法在计算一维双参数波动方程正反演问题时的可行性与有效性,并将该方法推广到了计算三维弹性波方程组正演问题.全文分为五章,第一章绪论,主要阐述了
半无限优化问题是一类决策变量有限,约束个数无穷的优化问题。这类优化模型在经济领域和工业领域有着广泛的应用。求解半无限优化问题的主要困难来自于无穷多个约束.检查一个
I.N.Baker,乔建永,方丽萍,盖云英等学者对函数族λze,zeλ,λ(e-1)/z进行了大量的研究并取得了丰硕的成果.从取得的成果看,这两族函数有着极为相似的动力特性.该文将对族λze:相
作文是思想交流的工具,具有多种交际交流的功能,作文教学在语文教学中占有非常重要的地位。构建“以学生为主体,教师为主导”的教学模式是当今课堂教学的主旋律。“主体”要
现阶段,随着英美文学的不断发展,关于英美文学中的人文主义,已经逐渐的引起了社会各界的广泛关注.文学与人文主义有着密不可分的关联,最初的文学形态是人性的自我表达,人们通
为提高防护员的培训质量,职工培训基地积极采取各种有效措施,包括严格审查防护员培训资格、优化培训内容、选聘优秀师资、采用多种教学手段、严格考核、严格证书填记等措施,
短期电力负荷预测是电网规划决策的基础,是电力市场化的前提,对电力部门提高经济效益有着重要的意义.传统的短期负荷预测方法如时间序列法、回归系数法等预测精度不高.由于人