论文部分内容阅读
近年来,肿瘤给人类健康带来越来越严峻的挑战,而且随着医疗数据的积累和人工智能技术的突破性发展,如何高效地辅助肿瘤诊断已经成为生物信息和计算机等学科所面临的挑战性难题。对肿瘤患者的临床、基因、代谢和医疗影像等数据构建机器学习模型,可以从不同角度理解和分析肿瘤发生发展的状态,从而达到高效地辅助肿瘤诊断的目标。为此,本文基于机器学习理论,针对肿瘤发生发展不同阶段的特点和多种模态医疗数据,围绕辅助肿瘤诊断中的四个关键问题进行了相关研究。本文研究的第一个问题是如何选择合适的配对特征选择算法(Matched-Pairs Feature Selection,MPFS)用于筛选肿瘤差异表达基因。肿瘤发生发展过程中只有很少的基因会发生差异性表达,筛选出这些基因将有助于在更深层次上理解肿瘤的形成机制,从而实现更精确的辅助肿瘤诊断。目前研究者利用特征选择方法在筛选差异表达基因上取得了大量的研究成果,然而考虑了基因表达数据的病例-对照配对特性的配对特征选择方法却尚未得到广泛的开发和研究。因此,本文第3章对近十年的配对特征选择方法进行了整理总结,给出了其一般性定义,并将其归纳为三大类型,分别为统计假设检验类、条件逻辑斯特回归类和提升策略类,最后构建大量实验在性能和运行时间上对这三类方法进行了全面的对比分析,为研究者选择合适的算法提供一些参考依据。本文研究的第二个问题是如何更精确地筛选出基因配对数据中的肿瘤差异表达基因。肿瘤组织中不仅含有肿瘤细胞,还包含其它非肿瘤细胞,其肿瘤纯度对基因差异表达分析具有重要的影响。但是目前的配对特征选择算法在对配对数据之间的差异进行建模时,却没有考虑到病例实验数据中的肿瘤纯度问题。因此,本文第4章提出了一种新的配对特征选择方法用于筛选肿瘤差异表达基因,该方法基于配对t检验方法,首先估计出每个样本病例实验数据中的肿瘤纯度,然后估计出病例实验数据的真实基因表达值,最后计算出优化后的配对t检验统计量,并根据阈值筛选出差异表达基因。实验结果表明该方法具有较高的灵敏度和特异度,而且筛选出的基因也具有较强的生物学意义。本文研究的第三个问题是如何更高效地利用医疗影像数据预测基因突变。针对已筛选出的肿瘤标志基因,判断其是否发生基因突变,具有重要的辅助肿瘤诊断价值。医疗影像是最常用的辅助肿瘤诊断方式之一,具有容易获取、非侵入性和成本低的优点,而且研究者们发现影像特征与基因突变之间存在关联,并开始利用医疗影像数据预测基因是否发生突变。但是目前的算法具有人工提取特征、两阶段建模以及无法融合多种模态医疗影像数据等缺点。因此,本文第5章提出了一种多模态三维卷积神经网络预测算法(Multimodal 3D Dense Net,M3D-Dense Net)用于利用医疗影像数据预测脑神经胶质瘤患者的异柠檬酸脱氢酶基因(Isocitrate Dehydrogenas,IDH)是否发生突变。该方法使用三维卷积神经网络自动提取影像特征,并利用多通道技术融合多种模态影像信息,端到端地实现了基因突变的预测。该方法具有良好的预测性能和泛化能力,而且结合了医疗影像和基因数据,使辅助肿瘤诊断更加多元化,并降低了其成本。本文研究的第四个问题是如何更准确地检测出医疗影像中的肿瘤病灶。检测出医疗影像中的肿瘤病灶是肿瘤诊断的重要步骤,也是基因测序、基因与医疗影像结合分析的基本前提,具有重要的临床意义。目前对乳腺X线影像中的肿瘤病灶进行检测的算法只是基于单个视图进行建模,并没有考虑到肿瘤病灶在影像的两个视图中存在相互联系。因此,本文第6章提出了一种双视图关系区域卷积神经网络检测算法(Cross-view Relation Region Convolutional Neural Network,CVR-RCNN)用于自动检测乳腺X线影像中的肿瘤病灶。该算法是第一个考虑双视图信息的乳腺X线影像肿瘤病灶检测算法,采用了两路目标检测架构同时对两个视图中的病灶进行检测,并提出了一个双视图关系模块对两个视图中肿瘤病灶间的关系进行建模。该算法具有较高灵敏度和较低假阳率,而且能够辅助临床医生筛查肿瘤,具有一定的临床应用价值。本文的主要贡献是基于机器学习理论,围绕辅助肿瘤诊断中的四个关键问题,从不同的角度进行了相关算法研究:在基因的角度对比分析了配对特征选择方法,并提出了一种基于肿瘤纯度信息的配对特征选择方法;在医疗影像的角度提出了CVR-RCNN算法用于自动检测医疗影像中的肿瘤病灶;在两者结合的角度提出了M3D-Dense Net算法用于融合多种模态的医疗影像数据预测基因突变。本文的研究工作具有较强的前沿性、理论意义和临床应用价值,而且相互之间存在联系和支撑,共同构成了一个初步的多元辅助肿瘤诊断体系,为未来研究工作中实现更精准的多模态数据辅助肿瘤诊断体系提供了良好的技术储备。