基于深度学习的儿童肿瘤病理图像诊断

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:suanjava
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来的很多工作都证明了深度学习在很多领域中的优越性,例如图像识别、自然语言处理、语音识别等。该技术中拥有非凡的性能并可以大大减少重复性人工成本。得益于医学图像数字化技术的发展,人工智能辅助的医学诊断成为一种可能。深度学习技术目前在成人病理任务上的尝试屡见不鲜,但在儿童肿瘤病理任务的应用却较为罕见。儿童癌症是造成儿童死亡的一个最主要原因,目前全世界都在面对严重缺少有经验的儿科病理专家的问题,因此开发能够辅助儿科病理医生进行日常诊断的人工智能算法刻不容缓。在使用深度学习来辅助儿童肿瘤病理诊断时,需要解决三大重点问题,即:关键特征提取问题;小样本问题;异信息源融合问题。围绕这三个平行问题,我们分别提出了有针对性的解决方案并同时注重相应辅助诊断模型的可解释性提升。病理图像与其他类型图像相比存在很多独特之处,因而高效地定向提取病理图像中的关键特征是一个重要问题。病理图像并不像自然图像那样有对象与背景的明确区分并且病理图像分析的目的往往不在于提取对象或分析更高层级的抽象语义特征,而在于分析细胞形态、组织或细胞整体的排列状态等进而得出结论。所以在对病理图像的分析任务中需要根据病理图像自身特点进行特殊的模型设计。在神经母细胞瘤七分类任务中,我们提出将神经网络与纹理能量测量(TEM)相结合,并提出了一种名为深度纹理网络(Detex Net)的新型网络架构,即本文第一项贡献。该方法通过在网络底层引入专家知识作为先验,使底层表征模式的含义更加清晰明确,从而使网络更顺利地抓住病理图像的关键信息。该模型通过定向抓取关键性信息实现了性能提升,并且为领域特点突出的研究任务提供了值得借鉴的研究思路。由于儿童癌症发病率低、儿童的人口基数小、相关切片数据难获取等原因,小样本问题在儿童肿瘤病理研究领域中更为突出。在小样本场景下高噪声和高多样性是造成模型性能不佳的主要原因。我们创新地提出模型Saga Net来解决小圆蓝细胞恶性肿瘤(SRBCTs)的二分类诊断问题,即本文第二项贡献。我们通过设计掩码过滤机制来主动屏蔽噪声来源并使模型关注病理图像中的有效细胞区域,并提出模长感知铰链损失以提高模型对特征多样性的容忍度。实验证明我们的方法收益显著并超越了目前的主流模型。该研究说明在数据量明显不足时主动屏蔽无用信息是可行且必要的。并且,通过在损失函数中添加显性的映射关系来增强模型对特征的区分能力是一种有效的做法。医学数据中多样的信息源对于特定任务的作用往往不明确,所以如何综合利用这些信息并且能使不同信息源之间达成互补是一个值得关注的重要问题。对于神经母细胞瘤四分类任务,我们使用多视图最大熵判别模型(MVMED)来解决该问题,即本文第三项贡献。我们利用边距一致性理论并在贝叶斯学习框架下通过变分优化来获取分类器的后验分布。实验中多视图模型比单视图和其他主流模型性能更优,并证明通过共享分类边距的多视图学习方法进行自动化特征选择的做法适用于异信息源的任务场景。本文的第四项贡献是,通过引入数据形式不同的外部信息源来对目标任务进行信息补充。在小圆蓝细胞恶性肿瘤的蛋白质检测序列自动化分类任务中,基于病理专家根据蛋白质功能对序列做诊断的事实,我们提出在上游任务中构建儿科常用蛋白质知识图谱并向量化,将得到的蛋白质功能向量应用于下游的蛋白质检测序列分类任务。实验结果证明上游任务的信息有效地融合到到下游任务的信息中并且所提出模型实现了最优的分类性能。这种通过下游任务判断逻辑来选择上游任务抓取信息类别的策略也适用于其他数据形式特殊并且信息不足的研究。高可解释性是深度学习应用于医疗领域的必要条件,因此我们在每个工作中都会在解决对应问题的同时注重可解释性的提升。第一项工作中我们通过指定网络提取纹理特征使特征含义更加明确;第二项工作中我们通过显式的方式来滤除图像噪声;第三项工作中我们提取不同类型的传统特征进行多视图学习,使得图像特征在信息丰富的同时不失明确物理含义;第四项工作中我们明确地构建出蛋白质知识图谱并在下游任务中通过可视化自注意力层并提出蛋白质的重要性和耦合性两种功能衡量指标来透明化决策过程。
其他文献
粗木质残体(Coarse woody debris,CWD)是森林生态系统重要的结构和功能组分,在养分循环与生物多样性维持方面发挥重要作用。研究发现,由树皮和木质部功能属性所介导的植物经济型谱具有显著的“死亡后效应”(after-life effect),决定了不同树种CWD分解速率的差异,并深刻影响无脊椎动物的群落结构及其动态过程。但是,当前还非常缺乏有关森林CWD分解过程中,植物树皮和木质经济
学位
随着科学技术的发展,数据存储量和数据形式复杂度与日俱增,函数型数据在医学、气象学、生物学、经济学等领域广泛存在。在分析这类数据时,需要考虑函数型数据无限维的特征,这给统计分析带来很大困难,传统的统计分析工具也无法适用。此外,函数型数据也能够提供传统数据无法带来的内部特征,在分析该类型数据时可以得到更多的性质和结果。因此,函数型数据成为目前的研究热点问题,如何利用统计方法分析函数型数据成为统计学领域
学位
因其组成的多样性、高度可调的结构、多孔性、较大的比表面积、易功能化等特点,金属有机框架(Metal-organic frameworks,MOFs)在刺激响应性方面有巨大的发展潜力。MOFs的刺激响应性可来自金属离子与有机配体的相互作用、框架/客体的电子结构变化、主客体相互作用、客体间相互作用、框架的限域效应。MOFs可以通过配体的修饰、金属簇的修饰、孔道中客体的引入、孔表面修饰等方法功能化,为实
学位
海岸带是人类社会重要且宝贵的资源,是陆海相互作用和人类活动的活跃地带。砂质海滩占全球非冰冻海岸的三分之一以上,具有极高的社会经济和生态价值。近几十年来,在全球气候变化、海平面上升以及频繁且严重的风暴事件等影响下,海滩侵蚀呈现普遍加剧的趋势。海滩资源减少与日益增长的海滩休闲度假需求之间的矛盾凸显,亟待更加科学且可持续地开发利用海滩资源,必要时需对海滩进行适当地修复或养护。然而,风暴的强度等级与发生频
学位
随着创业与创新的不断推进以及环境不确定性的持续增加,如何挖掘和利用创业机会来促进组织变革创新、提高组织韧性,是企业顺应创业创新浪潮、应对不确定环境的重要挑战。在这一背景下,企业高层管理者致力于创业型领导实践,敏锐洞察潜在机遇并及时把握市场先机,而该过程往往涉及组织变革创新,通过创造性解决问题、设计新产品或开拓新业务等方式取得创业成功。换言之,创业型领导以机会识别与开发为核心,由此推动组织创新的实施
学位
COVID-19疫情已然成为近年来最受各国政府、人民群众和科研人员关注的公共卫生话题。全球范围内不断上升的确诊病例数加剧了世界各地人们愈发强烈的担忧。在相关研究中,基于流行病学模型的疫情曲线解释性分析和预测问题是数据科学和统计学者所重点关注的主题。相较于历史上的诸多大流行病,COVID-19具有更强大的持续传播能力,并且在大规模抑制措施和疫苗接种背景下、其发展趋势仍然极富变化和不确定性;这些特性也
学位
高强度人类活动使三角洲沉积物的源汇过程以及河口-陆架的沉积地貌塑造过程发生改变,世界各地的河口三角洲正在面临或已经发生系统状态转换。20世纪70年代以来,流域建坝、河道和河口挖砂、航道疏浚、围垦等人类活动已经使珠江三角洲的动力—沉积—地貌过程发生异变,通过沉积记录分析高强度人类活动影响动力环境和地貌过程的证据,可以为预测三角洲演变及大湾区可持续发展提供科学依据。本研究利用2016年12月和2017
学位
随着传感技术、存储技术以及传输技术的进步,数据的收集方式发生了彻底变化,推动了大数据时代的到来.在大数据时代,数据表现出采集速度快、量级大以及结构复杂的新特点.这些新特征为数据的统计分析带来新的挑战.与此同时,为了更真实反映观测数据的特征,统计模型也设计的越来越复杂.因此,传统的统计推断方法——极大似然和贝叶斯方法,可能无法满足实际计算和建模需求.在这样的背景下,出现了许多近似贝叶斯推断方法,如加
学位
河流携带淡水、泥沙和污染物等入海,形成冲淡水并引起河口三角洲的冲淤变化。冲淡水为海洋提供营养盐,冲淡水的浊度影响透光度,对海洋生态环境有很大的影响。黄河自古以高含沙量著称,由于泥沙沿岸淤积致使黄河尾闾频繁改道,从北边连接渤海湾的刁口河口,到南边连接莱州湾的清水沟老河口,再到现在的连接渤海中心的现行河口。河口的改道影响入海水沙输运和扩散,进而影响近海水文和海岸冲淤变化。本文综合考虑径流、潮汐、风应力
学位
以二氧化碳(CO2)为化工原料合成高附加值化产品具有环境保护和资源合理利用的双重意义,是重要的研究课题。在诸多CO2转化方法中,电催化CO2还原反应(e CO2RR)是具有重要应用前景的技术路线之一。催化剂作为电催化CO2还原体系的核心组成部分,是提高反应速率和产物选择性的关键。本论文通过对铜基催化剂进行设计改性,合成了一系列不同种类的高效电催化剂,用于电催化CO2还原,可以高选择性地将CO2还原
学位