基于机器学习的多元辅助肿瘤诊断相关研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:html007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,肿瘤给人类健康带来越来越严峻的挑战,而且随着医疗数据的积累和人工智能技术的突破性发展,如何高效地辅助肿瘤诊断已经成为生物信息和计算机等学科所面临的挑战性难题。对肿瘤患者的临床、基因、代谢和医疗影像等数据构建机器学习模型,可以从不同角度理解和分析肿瘤发生发展的状态,从而达到高效地辅助肿瘤诊断的目标。为此,本文基于机器学习理论,针对肿瘤发生发展不同阶段的特点和多种模态医疗数据,围绕辅助肿瘤诊断中的四个关键问题进行了相关研究。本文研究的第一个问题是如何选择合适的配对特征选择算法(Matched-Pairs Feature Selection,MPFS)用于筛选肿瘤差异表达基因。肿瘤发生发展过程中只有很少的基因会发生差异性表达,筛选出这些基因将有助于在更深层次上理解肿瘤的形成机制,从而实现更精确的辅助肿瘤诊断。目前研究者利用特征选择方法在筛选差异表达基因上取得了大量的研究成果,然而考虑了基因表达数据的病例-对照配对特性的配对特征选择方法却尚未得到广泛的开发和研究。因此,本文第3章对近十年的配对特征选择方法进行了整理总结,给出了其一般性定义,并将其归纳为三大类型,分别为统计假设检验类、条件逻辑斯特回归类和提升策略类,最后构建大量实验在性能和运行时间上对这三类方法进行了全面的对比分析,为研究者选择合适的算法提供一些参考依据。本文研究的第二个问题是如何更精确地筛选出基因配对数据中的肿瘤差异表达基因。肿瘤组织中不仅含有肿瘤细胞,还包含其它非肿瘤细胞,其肿瘤纯度对基因差异表达分析具有重要的影响。但是目前的配对特征选择算法在对配对数据之间的差异进行建模时,却没有考虑到病例实验数据中的肿瘤纯度问题。因此,本文第4章提出了一种新的配对特征选择方法用于筛选肿瘤差异表达基因,该方法基于配对t检验方法,首先估计出每个样本病例实验数据中的肿瘤纯度,然后估计出病例实验数据的真实基因表达值,最后计算出优化后的配对t检验统计量,并根据阈值筛选出差异表达基因。实验结果表明该方法具有较高的灵敏度和特异度,而且筛选出的基因也具有较强的生物学意义。本文研究的第三个问题是如何更高效地利用医疗影像数据预测基因突变。针对已筛选出的肿瘤标志基因,判断其是否发生基因突变,具有重要的辅助肿瘤诊断价值。医疗影像是最常用的辅助肿瘤诊断方式之一,具有容易获取、非侵入性和成本低的优点,而且研究者们发现影像特征与基因突变之间存在关联,并开始利用医疗影像数据预测基因是否发生突变。但是目前的算法具有人工提取特征、两阶段建模以及无法融合多种模态医疗影像数据等缺点。因此,本文第5章提出了一种多模态三维卷积神经网络预测算法(Multimodal 3D Dense Net,M3D-Dense Net)用于利用医疗影像数据预测脑神经胶质瘤患者的异柠檬酸脱氢酶基因(Isocitrate Dehydrogenas,IDH)是否发生突变。该方法使用三维卷积神经网络自动提取影像特征,并利用多通道技术融合多种模态影像信息,端到端地实现了基因突变的预测。该方法具有良好的预测性能和泛化能力,而且结合了医疗影像和基因数据,使辅助肿瘤诊断更加多元化,并降低了其成本。本文研究的第四个问题是如何更准确地检测出医疗影像中的肿瘤病灶。检测出医疗影像中的肿瘤病灶是肿瘤诊断的重要步骤,也是基因测序、基因与医疗影像结合分析的基本前提,具有重要的临床意义。目前对乳腺X线影像中的肿瘤病灶进行检测的算法只是基于单个视图进行建模,并没有考虑到肿瘤病灶在影像的两个视图中存在相互联系。因此,本文第6章提出了一种双视图关系区域卷积神经网络检测算法(Cross-view Relation Region Convolutional Neural Network,CVR-RCNN)用于自动检测乳腺X线影像中的肿瘤病灶。该算法是第一个考虑双视图信息的乳腺X线影像肿瘤病灶检测算法,采用了两路目标检测架构同时对两个视图中的病灶进行检测,并提出了一个双视图关系模块对两个视图中肿瘤病灶间的关系进行建模。该算法具有较高灵敏度和较低假阳率,而且能够辅助临床医生筛查肿瘤,具有一定的临床应用价值。本文的主要贡献是基于机器学习理论,围绕辅助肿瘤诊断中的四个关键问题,从不同的角度进行了相关算法研究:在基因的角度对比分析了配对特征选择方法,并提出了一种基于肿瘤纯度信息的配对特征选择方法;在医疗影像的角度提出了CVR-RCNN算法用于自动检测医疗影像中的肿瘤病灶;在两者结合的角度提出了M3D-Dense Net算法用于融合多种模态的医疗影像数据预测基因突变。本文的研究工作具有较强的前沿性、理论意义和临床应用价值,而且相互之间存在联系和支撑,共同构成了一个初步的多元辅助肿瘤诊断体系,为未来研究工作中实现更精准的多模态数据辅助肿瘤诊断体系提供了良好的技术储备。
其他文献
目的探讨利奈唑胺治疗神经外科术后患者颅内感染的疗效及安全性。方法回顾性分析2012年1月至2016年12月该院神经外科使用利奈唑胺治疗颅内感染患者15例的临床资料。于治疗前
大深当归是日本的地道药材,主产于日本的大深地区,也叫大和当归.为伞形科植物[Angelica acutiloba(Sieb.et Zucc.)Kitag.]的干燥根,是我国当归[Angelica sinensis(oliv)Diels
以实验室提取的荞麦淀粉为原料对其性质进行研究,并与玉米淀粉、马铃薯淀粉和木薯淀粉的性质进行了比较。结果表明,荞麦淀粉、玉米淀粉、马铃薯淀粉及木薯淀粉在溶解度、膨胀度
目的探讨"无陪"护理在老年病病区开展的效果,为日益增加的老年病人病区提供借鉴。方法分别对有陪护组265例病人及10名医护人员和无陪护理组427例病人及10名医护人员作为调查对
古巴走上社会主义道路的过程是异常艰辛的,在走上社会主义道路之后,由于自身综合实力不够强大,国内建设依旧困难重重,国际上也面临美国的经济封锁和意识形态渗透。正是在这样
我国四季温度变化幅度较大,容易出现温度骤然升高或骤然下降现象。目前有关肉羊冷热应激的研究主要集中在慢性应激方面,而急性冷热应激对肉羊的影响鲜有报道。本试验研究急性
国际船级社协会作为IMO的首席技术专家,其观点是最具影响力的声音之一。随着环境法规力度的不断加强,其影响已经深入到航运业的各个环节。
目的:探讨吡柔比星联合沙培林灌注治疗膀胱肿瘤的疗效与安全性。方法:选取2016年1-12月本院收治的膀胱肿瘤患者108例,按随机数字表法分为两组,各54例。两组均行电切术治疗,术
随着全球变暖和生态环境恶化,水资源变得日益紧缺,各国也不断地开始重视对于水资源的保护。2016年,国家税务局发布《水资源税改革试点暂行办法》,旨在通过征收水资源税来促进
DriveScale是数据密集型工作负载交付软件可组合基础架构的领导者,同时也是Gartner评选的云基础架构类“2018最酷供应商”,该公司近日宣布其已在中国的一个重要客户——顺丰