不同国家患者肺癌检测及分类的比较分析

来源 :东北大学 | 被引量 : 0次 | 上传用户:jzaf_com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌是全世界最严重的健康问题,同时也是男性和女性癌症死亡的主要原因。尽管肺癌的发病率很高,对医疗保健造成了压力,使得治疗肺癌的进展缓慢,原因之一是早期无法发现肺部肿瘤的存在。过去的研究工作表明,由于需要许多因素和变量来准确检测肺部肿瘤,因此很难治疗这种疾病。肺肿瘤是肺部的气道中细胞分裂异常死亡的结果。当细胞分裂得太快或没有像正常情况下那样死亡时,可能会形成肿瘤或组织的异常积聚。一般来说,如果直径小于或等于3厘米,通常称为结节,当肺部形成结节时,称为肺结节。而直径大于3厘米的任何生长物都称为质量。在科学的各个领域都可以感受到数字图像对现代技术的影响,这一点可以通过重要的证据得以证明。近年来,包括计算机断层扫描(CT)在内的许多医学成像方法取得了巨大进展,这对提高肺癌的早期诊断水平具有重要意义。CT图像可以帮助医学专家鉴别肺部结节,这些结节被认为是肺癌的可能表现。在医学图像处理中,标准图像处理技术在处理含有不完整、噪声大、不精确、残缺、不完全可靠、模糊、矛盾、不足、过载等信息的图像时,往往面临很大的困难。在这种情况下,计算智能方法的使用最近被扩展到解决具有挑战性的现实世界图像处理问题中。图像分割研究如何利用计算机更好地分析和理解数字图像和视频,是计算机视觉的一个基本模块和重要分支。图像分割是为了用户更好的理解或分析而将图像分割成多个部分的过程。更具体地说,它的目的是将图像划分为对特定任务有意义的区域。特定方法的选择取决于要解决的问题的特征及其在更广泛的图像分析策略中的位置。分割是描述、识别或分类图像或其组成部分之前的重要步骤,目前有两种主要方法:基于区域的方法检测相似性;基于边界的方法检测不连续性(边缘),并将其连接在区域周围形成边界。为了开发强大的解释系统,在分割过程中尽可能多地使用相关的先验信息是非常重要的。机器学习(ML)可以定义为构建计算机程序,开发解决方案并根据经验进行改进。使用机器学习的目的是解决不能用枚举法或基于微积分的技术解决的问题。传统上,机器学习模型被训练为根据从原始数据中提取的手动设计的特征或由其他简单机器学习模型学习的特征来执行有用的任务。目前,深度学习是机器学习最广泛使用的技术之一,在深度学习中,计算机直接从原始数据自动学习有用的表示和特征。最常见的深度学习模型是人工神经网络的各种变体。计算机辅助诊断(CAD)系统在医学中帮助早期诊断和降低死亡率方面具有重要意义。因此,计算机断层扫描(CT)图像中的肺结节自动检测已成为众多计算机辅助设计的关键,而最具挑战性的任务是如何快速定位肺部结节的确切位置。因此,利用图像处理的肺癌检测系统对CT图像中的肺癌进行分类。这项工作的目的是实现一个完全自动化的管道,当前的成像技术,如计算机断层扫描(CT),将确定肺癌分期使用,它将是基于机器学习的分类过程的一个合适的起点。值的关注的的是本文提出了一种方法论和相关软件工具,通过利用两者的特点,将其作为胸部PET和CT医学(DICOM)文件的输入数字进行成像和通信(DICOM),使其最终能够自动识别肺部和肿瘤病变的存在。纹理和几何特征都用于从感兴趣区域(ROI)分割区域提取数据。我们还将从提取的特征中评估SVM和人工神经网络在基于机器学习的肺癌分类中的性能。对于测试实验,从3个不同来源(蒙古、中国和一个公共数据集来源)收集数据集。首先,从蒙古国布赖特医院采集肺的CT图像。对113例患者进行CT扫描,其中男性84例,女性29例,年龄18~82岁。然后我们从当地机构审查委员会收集了第二组数据,我们对2011年1月至2019年1月在中国当地医院诊断的患者进行了回顾性筛选。最后,我们从公共源获取最后一个数据集。肺图像数据库联合会图像收集(LIDC-IDRI)由诊断和肺癌筛查胸部计算机断层扫描(CT)扫描和标记的注释性病变组成。所有采集的图像以DICOM文件格式存储,文件大小为512 x 512。图像厚度从1.25毫米到5毫米不等,其中最常见的经常性图像厚度包括2.5毫米和5毫米。在实验中使用的肺部CT图像是从这3个不同的来源获得的。图像滤波方法采用中值滤波。在噪声过滤步骤之后,下一步是在将图像转换为灰度图像之前将其传递到层分离级别。对于分割,采用区域增长算法来获取和提取肺部区域或感兴趣区域(ROI)。这些步骤应用于CT图像如下图所示。进一步的特征提取和特征分类步骤应用于图形用户界面(GUI)中的图像。调整受肿瘤影响的肺部的CT扫描图像大小以定义癌症的阶段并转换为灰度图像,我们可以很容易地看到灰度的阴影。癌症肺部的灰度图像滤波采用中值滤波,在不影响肿瘤边缘的情况下去除图像中的噪声。我们可以使用不同的奇数窗口大小,如3×3、5×5和7×7,但这项工作的首选选项是3×3中值过滤器,因为它比其他窗口大小更有效。我们用形态学方法得到我们想要的肺段输出。要执行形态学操作,图像应该是二进制的。因此,我们使用图像阈值方法,将图像灰度范围从0-255像素转换为0-1的二进制范围。一旦二值化完成,下一步是将肺部区域与外部区域分开。肺区分离后,一些像素会变得多余,这意味着我们只能看到所需的ROI,为了减少诸如椒盐之类的小像素噪声,我们再次对二进制图像应用中值滤波器。二进制值可以通过使用形态学进行删除操作,函数来应用开闭函数。膨胀处理扩大了物体的边界,侵蚀缩小了物体。用于消除对象的薄部分的开口,而闭合则填充对象的间隙。从阈值中得到感兴趣区域(ROI)后,从肺部CT的输入灰度图像中分割出相应的灰度像素,分割图像。分割后用分割的肺结节进行特征提取。特征是从图像中提取的重要信息,它提供了对图像更详细的理解。提取了几何特征、基于强度的统计特征和纹理特征。形状测量是表征物体外观的物理尺寸测量。利用灰度共生矩阵(GLCM)提取纹理特征。在分割后,我们提取了 26个特征,如面积、质心、凸面积、偏心率、等径、欧拉数、范围、极值、短轴长度、方向、周长、坚固性、对比度、相关性、能量、均匀性、平均值、标准差、熵、均方根、方差、平滑度、峰度、偏度、IDM。特征降维,是一个优化特征集的过程,所以也称作特征集优化。它包括了特征选择和特征转换。特征选择算法是在不改变特征的情况下从原始特征集中选择子集特征;特征转换算法则将数据从原始高维特征空间转换为低维空间,从而得到新的特征集。特征降维的目的是简化分类过程,同时提高分类器性能。在本节中,我们只使用特征选择算法进行测试和比较。特征选择算法可以分为过滤方法和包装方法。过滤方法根据特定的标准对特征进行排序,并且与分类器模型无关。这使得滤波方法计算效率非常高。但是缺点是不考虑特定的分类器可能会降低分类精度。包装器方法通过在具有特定分类器的不同特征子集中训练和测试来比较不同的子集特征,并找到优化的子集。包装法对于特定分类器的性能往往更好。包装法的缺点是计算效率低,随着特征空间的增长,这一点更为明显。为了综合它们的优点,通常将这两种方法结合在一起使用,而滤波方法通常用作预处理。提取特征阶段后,采用特征选择方法。在此阶段,我们将图像分为三组,分别是蒙古国、中国和美国的图像。每组58例,提取26个特征。我们根据错误分类错误(mse)从每一组中选择了前5个特征。所有选定的特征都有不同的值。所以我们在分类过程之前使用了归一化方法进行标准化。标准化的目标是将数据集中数值列的值更改为一个通用比例,而不会扭曲值范围的差异。我们将所有特征缩放为0到1之间的值。最后一步是肺部特征的分类,以预测不同特征组所属额类别。在这里,我们考虑两类肺部CT图像,包括良性和恶性。这两类是根据我们提出的算法从给定的CT图像中进行分类的肺部类型。我们使用两种不同的分类机器学习算法:支持向量机(SVM)和人工神经网络(ANN)。支持向量机是一种学习监督方法。在大型数据集中,SVM分类器的学习速度最快。在我们的工作中,支持向量机技术已经被验证,可以成功地识别图像中的肿瘤,并进行分类。具体步骤包括使用图像特征来训练支持向量机并测试。在人工神经网络方法中,分类器网络由26个输入端组成。隐藏神经元数117个,输出神经元2个。输出是目标的结果,如1良性和2恶性。训练过程开始,可以看到均方误差(MSE)和周期图。当均方误差(MSE)达到零或训练时间达到规定时间时,训练程序自动停止。在我们的系统中,我们使用118个案例进行训练,58个案例所提取的特征进行测试。训练后,得到分类的结果。性能分析用于定量地、定性地找出数据集特征之间的关系,这对于理解所提出的系统的行为是非常有用的。利用支持向量机和人工神经网络两种不同的机器学习方法,我们可以用准确率、精度、召回率、灵敏度、特异性、F分数、kappa系数、相关系数和错误率等指标来证明算法的有效性。训练后的神经网络,可以计算对TP、FP、FN、TN值。在本文中,我们使用了 176个肺部CT图像。44幅为TP,2幅为FP,FN,130幅为TN。该方法的准确度为98.8%,灵敏度为97.7%,特异性为99.2%,精度为97.7,F评分为97.7%,相关系数为97.1,kappa 97%误差为0.114%。在混淆矩阵图上,行对应于预测类(输出类),列对应于真实类(目标类)。对角线单元格对应于正确分类的观察结果。非对角线单元格对应错误分类的观察结果。每个单元格中都显示了观察次数和观察总数的百分比。图最右边的一列显示了所有被预测为属于正确和错误分类的每个类的示例的百分比。这些指标通常分别称为精度(或正预测值)和错误发现率。图底部的行显示了属于正确和错误分类的每个类的所有样本的百分比。这些指标通常分别称为召回率(或真阳性率)和假阴性率。随后识别出混淆矩阵44例,正确分类为良性。这相当于所有病例的25%。同样,130例被正确地归类为恶性。这相当于所有病例的73.9%。总的来说,98.9%的预测是正确的,1.1%的预测是错误的。ROC曲线是用来检查分类器质量的一种度量。对于分类器的每一类,roc在间隔[0,1]内对输出应用阈值。对于每个阈值,计算两个值:真正比(TPR)和假正比(FPR)。试验的ROC曲线下面积可以作为衡量试验辨别能力的标准。一般来说,测试是根据ROC曲线下的面积来评价的。ROC曲线越靠近左上角,测试效果越好。对于ANN分类表现,第2类优于第1类,因为在所有临界值中,真阳性率较高且误报率低于第1类。在本文中,我们进行了一项实验,以找出不同分类器对肺癌数据预测性能的影响。考虑到SVM和ANN两种常用的分类器的定性性能,我们选择了这两种常用的分类器进行实验。通过对计算机仿真产生的定量数据的分析,我们发现提高上述分类器预测性能的一般概念。该系统显示的精度水平相当高。假阳性率为0.4%,远远高于美国国立卫生研究院进行的研究中医生96.4%的假阳性率。人工神经网络的分类精度为98.9%,支持向量机的分类精度为97.2%。当数据集增长时,受损的精度将明显改变。该系统有可能降低肺癌检测的巨大假阳性率,并有助于放射科医生做出更准确的决定。该系统还将降低诊断程序的总体成本,获得经活检证实的患者报告和CT扫描,我们的系统有可能降低进行活检的概率,并用于早期检测肺癌,这可以在高昂的治疗费用,治疗的痛苦甚至死亡面前,挽救许多人的生命。
其他文献
库存成本占供应链成本的很大比例,库存控制领域的关键内容是库存分配。若企业不能进行有效的库存分配,客户满意度将大幅降低,重要等级的客户的流失将会是企业声誉造成严重影响,甚至影响企业的长期发展。例如,不断发展的企业为拓宽业务领域必然引入一些新客户,但是由于企业服务能力有限,使得企业在老客户与新客户之间就需找到一个很好的权衡点,以便最大程度满足更多客户的需求。一般情况下,企业会为保证长期客户或更重要客户
能源和环境是当今各界关注的焦点,锂离子电池因其较长的循环寿命和较好的安全性能在动力和储能两大体系中得到了广泛应用。但是由于锂资源储存量有限、价格昂贵,使锂离子电池在大规模储能上的应用面临新的问题。而钠与锂具有相似的物理化学性质,且储量丰富、价格低廉,使钠离子电池成为人们研究热点之一。P2型Mn-Ni-Fe三元正极材料由于其比容量高(理论容量高达240 mAh·g-1,1.5-4.3 V)、经济环保
近几年来,社会民众和国家不断的呼吁通信行业“提速降费”,加上互联网企业对传统业务的挤压和通信行业内的竞争不断加剧,如何在日新月异的互联网时代进一步挖掘数据流量价值,制定差异化的营销策略,以便更好的适应新时代的市场形势,是各大运营商急需要解决的问题。本文以JN联通公司移动业务作为研究对象,首先,对当前通信行业的背景进行了介绍,确定了选题的意义,并提出了本文的研究思路和分析方法。其次,通过实际工作经历
随着中央对房地产调控策略的根本性转变,房企特别是中小房企生存难度更大。本文以天门市R置业SMQH住宅项目营销策略为研究对象,对目标公司如何整合现有资源,低成本高回报的市场营销活动进行深入研究。本文首先对市场营销、房地产市场营销、4P、4C、4R、SWOT、PSET、STP进行了综述,为后文的研究奠定理论基础。其次通过对项目外部环境研究得出天门是经济落后、人口大量外流、重视教育、房地产市场主体多元且
近年来伴随着区域经济一体化的急速加剧,利率市场化的全面改革,我国金融市场呈现出百花齐放的局面。外资银行纷纷涌入,互联网巨头的跨界融合,新兴科技支持下的各类金融衍生品的层出不穷,传统的银行业正在面临着前所未有的考验。但无论金融市场的格局怎样改变,也不管各家金融机构的商业模式怎么发展,究其根本都是为了谋求利益的扩张和客户资源的争夺,而在这其中大客户群体也一直扮演着各家金融机构盈利来源里面中流砥柱般的角
预重整诞生于美国本土司法实践,是指部分或者全部当事人之间在正式向法院申请重整救济之前已经就重整事项进行谈判并达成重整计划(也可能没有达成完整的计划),然后在已经达成的谈判的条件下向法院正式申请重整的司法程序。自Crystal石油公司在1986年通过预重整程序成功脱离财务困境后,预重整制度逐渐成为司法实务界和法学学术界研究的热点。预重整契合了传统重整和庭外重组的优势,既能避免传统重整耗时冗长、成本巨
项目经理责任制,即针对每一个工程项目,都分配项目经理对其项目施工全过程进行管控,享有权力的同时履行义务。项目经理责任制施行,一方面是为了增加建设工程项目管理水平,使工程在科学指导下,有一定规范性;另一方面也是为了克服我国处于计划经济体制时国有施工企业所采取的政企不分、责任不明等缺陷。这项制度实施之后解决了我国建设工程项目中现存的一些问题,提升了工程项目管理水平,同时也在实践中暴露出一些问题,比如企
我国煤化工行业目前呈现经济上行的时期,作为国民经济发展的重要板块,在保障能源供给和产业链接方面起到了重要作用。随着日趋严格的环保政策和减污治霾的现实要求,面临市场持续波动的不稳定因素影响,优化企业融资结构、降低融资成本等就发展成煤化工企业必须面临的关键问题。本文主要选取兴化股份为例,基于啄食顺序理论对该企业如何优化融资结构进行深入研究。经过研究,发现兴化股份在融资结构偏好上与啄食顺序理论有一定偏差
科技创新的发展水平,是国家综合实力的体现,而专利文本则是技术创新活动的重要反映。高校作为专利成果的重要产出地和人才资源的重要培养地,是国家创新驱动发展战略中的重要一环,因此落实高校专利技术对经济建设的推动作用,切实将高校专利投入到生产生活中就显得尤为重要。专利转让和专利许可活动可以有效的对专利转化进行评价,因此对我国高校专利转化和专利许可进行量化分析,可以为我国高校专利转化提供有价值的信息。具体行
随着生产力的发展和能源消耗的增长,能源短缺和环境污染问题凸显,成为各国普遍关注的问题。光伏发电产业作为战略性新兴产业,具有永不枯竭、适用范围广、安全无污染的优势,是解决世界能源危机、应对全球气候问题、保护生态环境的重要途径,长远来看,市场前景比较乐观。在国家一系列政策的支持下,近年来我国光伏发电产业得到快速发展。2018年国家出台“531光伏新政”以来,产能过剩、过度依赖外需的问题日趋严重,行业发