基于多序列MRI的脑胶质瘤IDH基因分型算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:obzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2016年新颁布的神经系统肿瘤分类指南中以异柠檬酸脱氢酶(Isocitrate dehydrogenase,IDH)基因表现型为基础对脑胶质瘤进行系统分类。由于现有基因型诊断技术的周期长且有额外创伤,而核磁共振成像技术(Magnetic resonance imaging,MRI)拥有无创、快速和可重复的优点,将其与人工智能方法相结合能做出人力所不能及的医学判断。所以,本文旨在利用多序列MRI技术,基于传统机器学习和深度学习方法,研究对脑胶质瘤IDH基因型进行无创诊断的算法。在基于传统机器学习的脑胶质瘤基因型诊断研究中,本文构建了一个包括增强T1加权成像(Contrast-enhanced T1-weighted imaging,CE-T1W)、T2加权成像(T2-weighted imaging,T2W)和动脉自旋标记(Arterial spin labeling,ASL)三个序列以及年龄、性别和IDH表现型等临床信息的脑胶质瘤数据集。传统机器学习建模流程如下:首先从各序列的感兴趣区域抽取851维放射组学特征;然后将放射组学特征与年龄、性别一起利用曼-惠特尼U检验、皮尔逊相关性分析以及最小绝对收缩和选择算子(Least absolute contraction and selection operator,LASSO)进行特征筛选;最后用剩余特征训练支持向量机(Support vector machine,SVM),并评估各单序列和多序列组合的分类性能。在基于深度学习的脑胶质瘤基因型诊断研究中,首先扩充自制数据集的病例数和序列数;然后构建新的三维深度卷积模型,以CE-T1W、T2W、ASL和表观弥散系数图(Apparent dispersion coefficient,ADC)四个序列的感兴趣区域直接输入模型,并在全连接阶段将年龄特征也加入以提升模型性能;此外,将经典深度分类模型和本文所提出的传统机器学习模型在扩增后的数据集上重新训练并测试。基于传统机器学习的实验结果表明,相比于任意单个序列和两个序列的特征组合,CE-T1W、T2W和ASL三个序列的特征组合能最准确地预测IDH基因型;使用多类别特征有助于区分两类IDH;皮尔逊相关性分析的使用能明显提高预测性能;通过与其他先进研究在本数据集上的性能比较确认了本研究方法的优越性。基于深度学习的实验结果显示,自建深度卷积模型对脑胶质瘤IDH基因型诊断的性能优于经典深度模型,次于本文的传统机器学习模型;ADC和临床特征对深度模型分类性能起提升作用。总之,经过在相同数据集下的训练、测试以及与其他研究的比较,自建的传统机器学习和深度学习模型均能根据多序列MRI有效区分两类IDH,但传统机器学习模型的分类性能更优,能为提升临床诊疗水平提供帮助。深度学习模型由于其对数据预处理的需求及数据集容量的限制而导致过拟合的问题不容忽视,仍然有一定提升空间。
其他文献
大数据正以指数级速度增长,其中大量数据是文本数据。文本数据作为传递信息的主要媒介,对文本信息的存储、传输和检索的成本急剧上升。因此需对文本进行压缩以节省存储传输成本,同时建立支持高效检索的压缩索引。压缩自索引已广泛用于许多字符串处理应用程序中,例如信息检索,基因组分析,数据挖掘和Web搜索。索引不仅索引数据,并且采用压缩形式对数据进行编码。而且,索引和它编码的数据可以直接操作,无需解压缩整个索引,
云计算以其强大的存储空间和快捷的计算服务吸引了各行各业的广泛关注.数据存储在云上,数据所有者失去对数据的直接控制,数据的机密性和访问控制问题随之而来.属性加密能够实现密文数据的细粒度和非交互式访问控制,因此被认为是解决上述问题的有效加密技术之一.在属性加密中,用户的密钥可能被窃取、丢失或者用户离开系统,此时应当及时地撤销用户的访问权限以确保数据的机密性.另外,数据加密后存储在云服务器上虽然保护了数
在互联网时代,公司都希望获取用户使用产品过程中的数据,希望通过分析用户数据来改进产品。在公司原有项目中,用户数据分析的各个功能是彼此独立的功能模块,无法充分发挥其价值。随着公司对用户数据分析的重视,为更好的利用原有的与用户数据分析相关的功能模块,项目组决定对原有的功能模块进行整合,搭建一个整体的用户数据分析平台。由于原有的功能模块相互独立,存在功能耦合严重、功能重用率低以及稳定性差等问题。因此,项
社区警务是当下警务工作中最为基础的且重要的组成部分,极大的影响了整个城市的警务系统发展与建设。近些年随着不断增加的人口数量,不断增大的房屋居住密度,数据获取的来源变得更具有多样性和复杂性。智慧时空社区警务系统开发是受武汉市某区公安局委托,旨在打破传统警务管理模式,充分利用共享数据信息,拓宽警务管控网络的情报和信息传递渠道,增强警务协同联动工作能力,综合优化社区警务资源配置。智慧时空社区警务系统利用
分布式系统是处理大规模任务的主要平台,可以高效地处理大数据任务和计算密集型任务,能够通过并行计算有效缩短任务完成耗时。随着分布式系统网络规模的不断扩大,参与任务计算的处理机数量不断增加,即使每个处理机都具有良好的鲁棒性,当分布式系统中处理机数量增长到成千上万个时,处理机的平均故障时间也将从数百天缩短至几小时或更少。当参与计算的处理机因内部错误、网络攻击、网络瘫痪等原因发生故障时,该处理机将不能再继
随着保险行业业务发展的不断扩张,传统保险行业急需一种更加有效面对日益增长的海量数据的处理方法。然而在国内的传统保险行业当中,面对如此海量的数据,利用效率却依然具有很大的局限性。大数据技术和数据可视化的出现,使得对海量数据的利用取得了巨大的突破。本文针对目前大数据实时看板的发展现状,结合Hadoop的开源大数据生态与Spark计算框架,基于B保险公司的具体业务项目,通过梳理设计业务场景的数据模型,设
SOC可以有效地降低电子信息系统产品的开发成本,缩短开发周期,提高产品的竞争力,是未来工业界将采用的最主要的产品开发方式。为了应对SOC芯片设计制造技术的飞速发展所带来的对芯片测试行业的新挑战,节约测试成本并缩短开发周期,本文开展了基于中低端ATE测试机的SOC测试技术研究,得到了一种可用于MCU内核的SOC芯片电气特性与功能的低成本快速测试的软硬件实现方案。论文主要工作如下:1.针对中低端ATE
近十几年来,随着云计算技术与数据智能技术的成熟,依赖生产中积累的数据,智能决策在企业生产中发挥了指导性作用。通常支持智慧决策的数据量级在BT甚至PT,而且由于各个业务场景的不同、信息化存储技术的差异以及信息的不透明性导致数据呈现出“数据孤岛”的现象。如何把来源不同、格式各异和特点相近的数据在逻辑上或物理上有机地集中在一起,形成格式标准化、访问一致化、数据存储集中化的统一数据成为企业数据仓库建设中面
在科技较为发达的今天,人们更加依赖使用计算机与手机进行信息的交换,文字成为了目前最主流的信息传播媒介。在传统的书面文字中,手写汉字往往都具有鲜明的个人特征,而当前绝大多数人在数码设备上所使用的文字字体为标准楷体或宋体。在同质化的网络时代,人们越来越青睐于能够满足他们个性化需求的产品,所以人们对于个性化字体的需求越来越明显,个人手写字库显得越来越重要。通过使用个人手写字体,不仅能够使得文字信息在信息
超短脉冲激光的出现为科学研究提供了强有力的工具。尤其是,飞秒紫外激光具有波长短、单光子能量高和时间分辨率高等特点,在物理化学、生物医学以及超精细微纳加工等方面具有重要的应用价值,但大多数超短脉冲激光器输出波长集中在近红外和中红外波段,因此,通常需要通过频率变换获得飞秒紫外激光。而飞秒激光谐波变换过程中存在群速度失配、高阶非线性效应等效应,很大程度上限制了频率转换的效率,因此开展这方面研究有着重要意