论文部分内容阅读
组合生物标记物在研究复杂疾病如癌症的早期诊断和预后及其致病机理、细胞分类及细胞的分化机制等方面起着至关重要的作用。作为一个NP-难的组合优化问题,快速有效地识别一组生物标记物是生物信息学中重要的挑战之一。随着高通量技术的发展和进步,针对多种表型的多层次组学数据的大量涌现,组合生物标记物的研究也逐渐从单层次的数据集扩展到多组学、单一表型扩展到多表型的系统分析。集成分析这些数据对复杂疾病的治疗和预防,细胞特异性识别有重要的作用。然而,由于生物学数据维度高,噪声大,不同表型、不同层次数据集之间的关系复杂,很多挑战性的热点问题有待解决。本论文主要围绕组合标记物识别的几个热点问题进行研究,以最优化方法为手段,从单层次数据集到多层次数据集,从一种疾病(一类细胞)到多种疾病(多类细胞)展开研究,得到的研究成果主要包括: 1、针对单层次数据集,构建了组合生物标记物识别的混合整数规划模型和算法,对识别一组风险生物标记物对于癌症的早期诊断具有重要意义。为了提高诊断的精度,我们设计了混合整数优化模型,该模型允许我们改变选择特征的个数,选择一组个数相对少的生物标记物且得到好的分类精度。在结直肠癌的血液数据集上,我们和已有的算法做了比较,结果表明我们的方法可以快速有效地识别一组生物标记物,并提高了诊断的精度。另外,它可以很好的去除冗余并选择互补性且可解释性强的生物标记物。 2、提出了单层次数据集中组合预后生物标记物识别的算法NCC-AUC。AUC是生存分析中常用的一致性指标(concordance index,CI)的近似,该算法基于AUC并采用L1范数来选择组合预后生物标记物。我们在乳腺癌的基因表达谱数据集和非小细胞肺癌的临床数据集上和经典的分类模型、生存分析模型做了比较,我们的算法均显现出一致的优势。另外,我们的方法是鲁棒的并且能选出具有可解释性的生物标记物。 3、对于多层次数据集中组合生物标记物识别问题,提出了group lasso优化算法LPGLO。该算法基于group lasso的思想,并最小化每一个层次中生物标记物的个数并同时最大化留一法的精度。我们的算法在结直肠癌的血液和质谱两个层次数据集中识别了一组联合标记物(joint-biomarker)并得到了很好地精度。进一步和单个层次的数据集结果比较发现,我们的算法提高了诊断的精度,并且很好的避免了单个数据集得到的冲突结果。它可以为多层次数据集的研究提供一种新途径。 4、提出了多种疾病的组合生物标记物识别的系统优化算法。该算法从癌症本身的相似性出发,在每个癌症中找到特异性的生物标记物,并基于所有癌症特异性生物标记物中得到相似性生物标记物,从而同时识别癌症的相似性和特异性生物标记物。我们在22种癌症的长非编码RNA数据集上验证了我们的模型,并找到了癌症特异性和相似性的生物标记物,对相似性的生物标记物,我们进一步对其功能进行分析,研究癌症的共同机理。 5、提出了多个细胞组合生物标记物识别的优化模型和算法。该算法最大化细胞特异性分数并同时保留不同细胞类型的拓扑结构。我们在29个组织的表层基因和转录因子表达数据集上验证我们的算法,并和经典的降维模型与细胞特异性生物标记物模型做了比较,进一步验证了我们算法能同时识别细胞特异性的生物标记物并能很好的保持细胞之间的相互关系。