基于卷积神经网络的乳腺组织拉曼光谱分类模型研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:zf524979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
约20%的人在其一生中都会患有癌症,其中乳腺癌的发病率逐年提高并在新发患者数量和死亡数量上都位居第一。据统计结果显示,45岁到55岁是乳腺癌病症的高发期,早期乳腺癌的治愈率可达到90%,所以越早发现越能提高乳腺癌患者的治愈率。由于传统的乳腺检测方式时间周期长、费用高,所以提高检测速度并降低费用变得越加重要,拉曼光谱作为一种分子散射光谱,能够检测到物质中分子结构和含量的变化,在疾病诊断方面具有一定的参考价值。一般来说,拉曼光谱数据特征数量较多,使用深度学习技术可以更为充分地学习这些特征信息。但是医疗数据通常有采集困难,数据集中样本数量少等问题,这就使得直接使用深度学习构建的模型存在稳定性较差、泛化能力较弱、过拟合等问题。为了解决上述问题,并能对一维的乳腺组织拉曼光谱数据更好地分类,本文中分别从降低样本特征数量和增加一维医疗数据两方面进行实验,并设计了一种专用的卷积神经网络用来提高在乳腺组织拉曼光谱数据分类任务的各评价指标。首先,使用频繁项集挖掘方法减少光谱数据中特征数量。由于频繁项集挖掘算法适用于字符型数据,所以需要将实验中的数值型光谱数据转变为字符型数据。工作流程如下:将数据集中的数值型数据按照一定规则转换为字符型数据,并以此为基础进行数据挖掘;调节频繁项集挖掘算法中的参数以获得在训练集中频繁项集挖掘后,取得的不同样本属性列集合;以这些不同的样本属性列集合建立新的数据集,并在新的训练集上构建模型,观察模型过拟合现象并考量评价指标。其次,使用数据增强的方法增加光谱数据样本。如果直接使用增强图片数据的方式增加一维的医疗数据,扩增后的光谱数据无法准确定义它的类别,所以实验中使用不同的滤波器以再次平滑的方式扩增数据,在确保增强前后光谱数据不一致的基础上尽量减少它们的变化幅度。工作流程如下:以原始数据集中的训练集作为扩增目标,分别使用不同的滤波器进行数据增强;调节不同滤波器中的参数使得分别扩增相同倍数后的不同训练集中样本数量相同,并比较哪种扩增方式更适合此分类任务;分别在扩增后的训练集上使用不同网络构建模型,并比较不同模型的评价指标。最后,本文中设计了一种卷积神经网络,并用其构建模型以验证在此光谱数据分类任务中,该模型的结果能够优于其它模型。通过实验验证可以得到,分别使用降低样本特征数量或增加一维医疗数据的方式,能够减少或避免直接在医疗数据上构建模型时带来的过拟合问题,提高模型在乳腺组织拉曼光谱数据分类任务上的表现。本文设计的卷积神经网络在三分类任务中,模型达到了97.83%的准确率,0.97的精确率,0.96的召回率,0.96的F1值;而在五分类任务中,模型取得了97.83%的准确率,0.98的精确率,0.97的召回率,0.98的F1值。这证明了降低特征数量或数据增强光谱数据后分别构建的模型,既融合了深度学习技术的优势,又在一定程度上解决医疗数据样本数量过少,特征多且采集困难带来的模型过拟合问题。
其他文献
体育教研员致力于推动体育教育发展,并一定程度促进体育教师的发展,在体育和教育快速发展的过程中发挥着重要的作用。在国家鼎力发展教育和体育的背景下,体育教研的发展也迎来了新时机。吉林省体育教研发展在多重阻碍中,如何切实有效的开展教研工作成为了进一步发展的关键问题。结合对以往研究的梳理总结发现,体育教研员胜任力的探索能够找寻并讨论体育教研员的胜任力特征,较为深入的审视教研工作现状,挖掘现存问题从而有针对
学位
随着时代的发展,科学技术成为第一生产力。不同于以往,新时代的科学技术发展也为教育的多维度发展带来了深刻的影响,对适应新时代的新人才的培养也给出了新的参考。科学技术旨在创新,在支持科技发展的创新思维能力中,逻辑思维能力占极为重要的地位,所以逻辑思维能力的培养应当是教育的重中之重。儿童作为国家栋梁的幼苗,是人的一生接受教育的起点,要想培养出更多的创新型人才,就应该在儿童阶段着手培养其逻辑思维能力。在需
学位
计算机技术的飞速发展,使得深度学习方法焕发了新的生机与活力,并在各个领域中都取得了相当不俗的成绩。伴随深度学习方法可以解决更多的难题,越来越多的研究者投入到利用深度学习视频内容分析领域之中。虽然目前已有的深度学习方法能在视频行为识别与视频动作定位任务上取得不俗的效果,但在视频动作分割任务中仍然有边界模糊与过度分割的问题急需解决。为了解决动作分割任务中边界模糊与过度分割的问题,本文利用视频不同尺度时
学位
外膜蛋白(Outer Membrane Protein,OMP)是跨膜蛋白的一个重要类别,对于疫苗设计、抗生素抗性以及癌症诊疗研究均有重要意义。外膜蛋白处于生物外膜特殊环境,因此,生物实验技术无法大规模解析其蛋白结构并深入探究由结构决定的生物功能。基于当前条件,采用计算手段探索克服外膜蛋白小样本问题的结构特征预测方法成为领域内研究的重要途经。拓扑结构是体现外膜蛋白家族功能的显著结构特征。拓扑结构预
学位
部分集合覆盖问题是集合覆盖问题的扩展,其目标是用尽可能少的子集覆盖至少k个集合。部分集合覆盖问题在覆盖目标或带约束的放置等问题中有着广泛的应用,并已被证明为NP难组合优化问题。随着技术的发展与进步,集合覆盖问题及其延申问题愈发得到研究者的关注,如何有效地解决这类优化问题具有重要的理论价值和现实意义。求解集合覆盖问题的方法主要分为精确算法与启发式算法。精确算法能够求出问题的最优解,但当问题规模较大时
学位
癌症是全球范围内致人死亡的重要原因之一,其特点是由基因突变导致细胞异常增殖和失控。作为一种十分复杂的异质性疾病,癌症的诊断传统上主要基于组织病理学和临床特征,因此需要人工检查和临床医生精湛的专业知识,难以统一实施。尽管这些癌症诊断结果对病人的预后价值无可争议,但是由于缺乏明确的分子基础数据,其在预测抗癌药物疗效方面的效果还存在一定的提升空间。为了可以促进患者的后续治疗和个性化管理,癌症亚型的诊断和
学位
具有超凡属性的类石墨烯结构的磁性薄膜材料,被认为是理想的半导体材料,在量子芯片领域具有十分广阔的前景。本文在海森堡模型的框架下,研究了“铁磁-反铁磁-铁磁”和“铁磁-铁磁-铁磁”这两种典型的类石墨烯薄膜。论文采用线性自旋波理论,引入推迟格林函数方法,对系统哈密顿量进行了对角化求解。基于谱定理和关联函数,对比研究了交换耦合相互作用、各向异性以及自旋量子数等因素对能隙、共振频率和基态磁矩的影响。研究发
学位
2020年初新型冠状肺炎病毒爆发,迅速蔓延并肆虐全球,疫情持续时间长,对特定人群危害程度大,引起社会各界的高度重视,在各个社交平台关于疫情话题急剧增加。了解大众舆论热点话题,分析人们对各类疫情信息的情感反馈,从而对社会舆情进行正确导向,同样是战“疫”的重要一环。然而,如何有效地对大规模的文本数据进行提取、分析、处理和决策,是舆情监测问题面临的巨大挑战。本研究提出一套面向舆情数据的主题情感演化可视分
学位
免疫信息学是在现代信息学和免疫学的基础上建立的新兴学科,它是一种使用信息学的相关方法理论来处理免疫和疫苗学相关问题的学科,同时也是研究生物免疫应答过程中信号传输规律以及免疫系统调节的学科。作为免疫信息学研究的主要问题之一,表位预测是研究疫苗、抗体、变态反应和移植免疫计算分析的基础。表位是在抗原分子中能够与抗体或受体结合、引发特异性反应,从而引发免疫应答的特殊化学结构。B细胞表位是指抗原表面上,能够
学位
随着现代科技的进步,视频和图像已经成为人们最主要的信息传递方式,如何更好地利用这些信息是一个值得深入探讨的问题。3D人体姿态估计是计算机视觉领域的一项热门研究话题,它是指从视频或图像中估计人体关节点的3D位置。3D人体姿态估计技术拥有十分广泛的应用场景,如人机交互、自动驾驶和视频监控等。但是目前该技术的发展仍然不够成熟,取得的成果距离人们满意的效果还有很大差距。本文研究的主要内容是设计一个深度网络
学位