论文部分内容阅读
随着人类的生活环境污染日趋加剧、生活环境不断恶化,人们更容易接触到致癌因素从而患上癌症,癌症的发病率也在逐年递增。另外,癌症在人的体内会进行扩散,从而导致癌症转移,也就是转移性癌症。大量的转移性癌症需要进一步的诊断来判断其原发部位,即进行肿瘤溯源。然而,仅通过医疗设施和专家临床经验,许多患者仍然原发灶不明,原发灶不明癌症(CUP)患者占所有癌症诊断的3-5%。因此,专家及科研人员进行了大量关于预测癌症原发灶的研究,早期的研究大多使用免疫组织化学方法和医学图像技术辅助预测癌症的原发灶。然而,这些方法因医疗专家经验和能力的不同而存在很大差异,通常具有很大的局限性,因此寻求更加有效的诊断方案至关重要。本文首先介绍了检测分子表达谱的相关技术以及相关监督学习理论。针对高通量二代测序技术(NGS)和微滴式数字PCR技术(dd PCR)能在一次实验中同时检测大量的基因突变或基因表达值,且监督学习算法能对这些数据进行建模,提出结合使用监督学习方法以及基于分子水平的分子表达谱数据可用于肿瘤溯源。通过阐述监督学习中相关特征选择和分类算法以及相关理论背景,为后续肿瘤溯源方法提供理论支持。本文接着提出了一种基于逻辑回归的肿瘤溯源方法。基于体细胞突变是一种重要的组织特异性分子表达谱数据,且在肿瘤原发部位与转移部位存在差异,研究了使用体细胞突变进行肿瘤溯源。首先对原始数据进行数据预处理,然后使用Person系数进行特征选择,进而获得最合适的基因数,接着使用逻辑回归算法构建分类器,并使用构建好的分类器对最终得到的数据进行训练。实验结果表明:所提出的方法比传统方法具有更高的预测准确率。本文又提出了一种基于随机森林的肿瘤溯源方法。根据使用突变数据进行肿瘤溯源十分有效,设计了结合使用突变数据和基因表达谱进行肿瘤溯源方法。首先,收集这两种分子表达谱数据,并对它们进行数据预处理。由于集成学习在训练大规模数据,离散型数据上训练速度快且拟合能力强,研究了使用随机森林算法进行特征选择和分类器构建,并使用构建好的分类器对最终得到的融合数据进行训练。实验结果表明:改进的方法比基于逻辑回归的肿瘤溯源方法有更高的预测准确率以及更好的鲁棒性。综上所述,找到肿瘤的原发部位对癌症的诊断和治疗至关重要,然而传统肿瘤溯源方法越来越不能满足当前的医疗需求。由于肿瘤原发部位和转移部位的分子表达谱数据存在差异,且监督学习方法能根据这种差异进行分类;本文分别使用体细胞突变数据、基因表达谱和融合分子表达谱作为实验数据,并分别使用不同特征选择和分类算法;实验结果表明,使用集成学习算法并结合使用突变数据和基因表达谱进行预测比单独使用其中一种数据要好得多,为后续研究提供了新的研究思路以及方法,对癌症的诊断和治疗具有非常重要的应用价值和现实意义。