基于监督学习方法的原发灶不明癌症溯源研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:nescafe_k
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类的生活环境污染日趋加剧、生活环境不断恶化,人们更容易接触到致癌因素从而患上癌症,癌症的发病率也在逐年递增。另外,癌症在人的体内会进行扩散,从而导致癌症转移,也就是转移性癌症。大量的转移性癌症需要进一步的诊断来判断其原发部位,即进行肿瘤溯源。然而,仅通过医疗设施和专家临床经验,许多患者仍然原发灶不明,原发灶不明癌症(CUP)患者占所有癌症诊断的3-5%。因此,专家及科研人员进行了大量关于预测癌症原发灶的研究,早期的研究大多使用免疫组织化学方法和医学图像技术辅助预测癌症的原发灶。然而,这些方法因医疗专家经验和能力的不同而存在很大差异,通常具有很大的局限性,因此寻求更加有效的诊断方案至关重要。本文首先介绍了检测分子表达谱的相关技术以及相关监督学习理论。针对高通量二代测序技术(NGS)和微滴式数字PCR技术(dd PCR)能在一次实验中同时检测大量的基因突变或基因表达值,且监督学习算法能对这些数据进行建模,提出结合使用监督学习方法以及基于分子水平的分子表达谱数据可用于肿瘤溯源。通过阐述监督学习中相关特征选择和分类算法以及相关理论背景,为后续肿瘤溯源方法提供理论支持。本文接着提出了一种基于逻辑回归的肿瘤溯源方法。基于体细胞突变是一种重要的组织特异性分子表达谱数据,且在肿瘤原发部位与转移部位存在差异,研究了使用体细胞突变进行肿瘤溯源。首先对原始数据进行数据预处理,然后使用Person系数进行特征选择,进而获得最合适的基因数,接着使用逻辑回归算法构建分类器,并使用构建好的分类器对最终得到的数据进行训练。实验结果表明:所提出的方法比传统方法具有更高的预测准确率。本文又提出了一种基于随机森林的肿瘤溯源方法。根据使用突变数据进行肿瘤溯源十分有效,设计了结合使用突变数据和基因表达谱进行肿瘤溯源方法。首先,收集这两种分子表达谱数据,并对它们进行数据预处理。由于集成学习在训练大规模数据,离散型数据上训练速度快且拟合能力强,研究了使用随机森林算法进行特征选择和分类器构建,并使用构建好的分类器对最终得到的融合数据进行训练。实验结果表明:改进的方法比基于逻辑回归的肿瘤溯源方法有更高的预测准确率以及更好的鲁棒性。综上所述,找到肿瘤的原发部位对癌症的诊断和治疗至关重要,然而传统肿瘤溯源方法越来越不能满足当前的医疗需求。由于肿瘤原发部位和转移部位的分子表达谱数据存在差异,且监督学习方法能根据这种差异进行分类;本文分别使用体细胞突变数据、基因表达谱和融合分子表达谱作为实验数据,并分别使用不同特征选择和分类算法;实验结果表明,使用集成学习算法并结合使用突变数据和基因表达谱进行预测比单独使用其中一种数据要好得多,为后续研究提供了新的研究思路以及方法,对癌症的诊断和治疗具有非常重要的应用价值和现实意义。
其他文献
从改革开放以来,我们党就对解决贫困问题,实现社会主义现代化作出了战略规划。从解决温饱问题到满足人民基本生活需要,从解决物质文化需求到提出“满足人民美好生活需要”,中
目前,神经机器翻译(Neural Machine Translation,NMT)是机器翻译的主要研究方向。神经机器翻译的研究工作,通常是以句子级别的翻译作为研究对象,对于翻译的过程,往往是将单个
军用光缆网是重要的国防基础通信设施,但光缆线路障碍问题一直以来都是导致通信网络故障的最主要原因。直埋式光缆线路作为军用光缆线路中占比最高的线路敷设方式,它的无障碍
“互联网+政务服务”以平台为载体,通过平台建设打造一体化、全过程、无缝隙的为民服务体系。我国“互联网+政务服务”平台建设取得了显著成效,但也面临发展困境。只有以公平正义作为价值追求,进一步完善“互联网+政务服务”平台建设,不断满足人民日益增长的美好生活需要,才能为人民群众提供更加优质的公共服务,使人民群众拥有更多的获得感。
火力发电厂中输煤系统是保障火电厂正常运行的关键,由于特殊的结构特点,输煤栈桥结构在历次地震中均遭受到了不同程度的损伤,给国民经济造成了严重影响。目前国内外对输煤栈桥抗震性能的研究相对较少,更是鲜有涉及近断层脉冲型地震动作用下输煤栈桥结构地震响应的研究。因此,有必要对输煤栈桥结构在近断层地震动作用下的抗震性能展开研究。本文主要内容及成果如下:首先,以典型输煤栈桥结构为研究对象,建立有限元数值模型。采
氧化还原循环策略是光电化学传感器较常见的增敏方式,可显著提高传感器的性能,三(2-乙羧基)膦盐酸盐(TCEP)作为一种信号放大剂在氧化还原循环策略中发挥着重要作用。同时,一些具有氧化还原活性中心的分子如铁氰化物也可作为媒介在光电化学过程中展现出优越的性能。本文制备了具有较强光电催化活性的Bi_2S_3-G、CdS-RGO纳米材料,用来作为光电转换层构建了不同类型的传感器,进一步应用于目标物的分析检
具有控制电路的相控系统在当今军事和商业无线通信领域中获得了广泛的应用,同时日益增长的通信需求也亟需相控系统相关的射频器件和系统的设计革新。方向回溯阵列是一种特殊
Micro RNAs(mi RNAs)是一类长度大约为22nt的内源性单链非编码小RNA。它们通常在转录后抑制其目标信使RNA的3~′非翻译区(UTRs)的基因表达和蛋白生成。随着基因组测序技术与
郑州市青少年校园篮球联赛是郑州市教育局主办,郑州市中小学生体育协会和郑州市篮球协会承办,郑州教育电视台协办的一项篮球赛事,以提升我市青少年校园篮球水平,增加我市优秀
近年来,Lnc RNA(长非编码RNA)已被证明与许多严重种危害人类健康的严重疾病的发生和发展密切相关。然而,由于传统生物实验具有实验的高成本和高耗时等原因,大多数Lnc RNA与疾