基于主成分分析和人工神经网络图像处理方法的肺结节检测和分析

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:shylake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌早期检测可以提高肺癌患者生存率。由于缺乏因不规则形状、大小及纹理而导致的检测肺结节的有效途径,肺癌的预测和治疗仍然是挑战。本文的图像处理包括图像预处理、图像分割和特征提取。为了检测结节,人工神经网络(ANN)已被用来学习提取到的特征,如:形状、大小、体积。然后,应用主成分分析法进行多元数据的处理,用来检测不同病人、疾病和治疗方法的相互关系的复杂性。MATLAB用于图像处理和人工神经网络的所有程序。XLSTART软件用于进行主成分分析。包含图像的肺癌数据库将肺癌分成两种:1)正常的无结节,2)结节图像,如良性或恶性。因此,通过采用本文提出的方法可以获得97%的准确率。  肺癌有时称为肺肿瘤,是肺组织中细胞生长失控的恶性肿瘤。如果肺癌不被治疗,癌细胞的增长可以扩散到肺以外。如果没有通过新陈代谢的早期治疗,肺癌细胞能够扩散至身体的其他部位。肺癌是最危险的疾病,因为它总是在诊断前传播,使治疗更加困难.。有两种类型的肺癌,如:1)小细胞肺癌,几乎占所有肺癌的15%;2)非小细胞肺癌几乎占所有肺癌的85%。为了提供正确的治疗,必须确定癌症的类型。  大多数人在肺癌扩散之前没有表现出任何症状,但如果能早期表现出症状并得到医生的告知,那么他的癌症就会在早期阶段得到诊断。大多数肺癌的症状包括:1.呼吸道症状,如咳嗽至出血,气短,哮喘等。2.全身症状,如食欲不振,体重减轻,感觉一直浑身疲惫虚弱,每日发烧。3.毗连结构症状,如胸部因为深呼吸疼痛,咳嗽或笑,骨疼痛,吞咽问题、呼吸困难,如头痛、头晕和癫痫发作。  肺癌风险因子。有许多导致患癌几率很高的因素。但有危险因素并不意味着你会有疾病,然而其他人有很少危险因子或未知因子的人可能会有疾病。以下是导致肺部疾病的危险因素:吸烟导致约87%的癌症。对于一个吸烟的人来说,吸烟越多风险越大。暴露在某些像氡和石棉的环境下,如矿山,磨坊和纺织厂。暴露于别人吸烟环境中,暴露于致癌物质,如放射性矿石如铀,吸入化学品或矿物质,如硅煤产品,柴油废气。空气污染和饮用带有砷的水。  诊断肺癌。如果医生怀疑你患有肺癌,那么医生会建议你在以下几方面诊断肺癌。肺影像学检查。肺部图像可以通过X射线扫描,肺部会识别出异常的肿块或结节.。或通过CT可以确定由X射线确定的小病变,在我们的例子中,我们使用CT肺图像和痰细胞学检查。显微镜可通过咳嗽痰鉴别肺癌细胞的存在。  肺癌的阶段。肺癌分期是医生确定的重要部分,以确定肺癌是如何扩散到肺以外的,并决定哪种治疗方法是合适的,。分期与肿瘤大小的评估及其在周围组织中的传播以及淋巴结或其他器官的存在或不存在转移关系。确定肺癌的分期对于确定特定癌症的治疗方式是非常重要的。肺癌有以下四个阶段。阶段Ⅰ:肿瘤小于5cm,没有扩散到淋巴结。阶段Ⅱ:肿瘤已经扩散到淋巴结。并大于2英寸。阶段Ⅲ:肿瘤非常大,已经扩散到肺部附近的其他器官。阶段Ⅳ:肿瘤已经扩散到影响肺以外的人体的其他部位。2016年肺癌的统计。肺癌是男性和女性最常见的癌症,肺癌占所有类型癌症的14%。美国癌症协会在2016年对美国的肺癌估计做了如下统计。224,390例新的肺癌病例,男性117920例,女性106,470例。死于肺癌的有158,080例,其中男性85,920例,女性72,160例。约1/4的癌症死亡是肺癌主要引发的。  论文的目的。这项工作的主要目的是能够在任何阶段检测结节,并通过考虑形状、面积、直径等特征将图像分成正常或异常。为了在早期阶段检测肺结节,系统需要不同的模块,如图像增强、图像分割、特征提取以及分类。早期发现肺癌可以让医生更有效地处理数据集。这将使他们的工作更容易和更准确。这个系统无法替代医生工作,不过可以辅助医生检查早期的结节,这些结节往往很容易被医生忽略。关于胸片肺结节的难点有几个方面:结节的大小从几毫米到几厘米的变化;有些结节比周围组织稍密因此影响结节的可见度;由于因为结节可以出现在肺部任何地方,因此其对比度有较大的变化。  问题的现状。无论对于男性和女性,肺癌是快速增长且最危险的癌症。识别肺癌需要等待结节变大。因此目前需要对小结节进行识别,需要鼓励创新的治疗和预后。但小结节有时不是癌,甚至可能是感染组织的疤痕。肺结节的识别和诊断系统是非常重要和高度需要的。许多放射科医师使用的等待和观望的方法,使结节生长成更大以后来确定肺癌的系统。但是现在很多医生希望能够确定结节从点开始增长,这将导致治疗和新技术的改进。小结节的大小为几毫米,约5mm至25mm。在早期检测肺癌的治疗是非常重要的。结节是发生在肺上的一块不象正常肺组织或血管的地方。结节的特点有许多属性,如类、大小、体积等用于诊断。大多数小结节不是癌症,可能是其他感染。如果结节小,可以通过手术切除,但如果是大结节或癌症,它需要化疗或者辐射或者两者都需要。结节是癌症的几率是40%,但患癌症的风险取决于几个因素。年龄小于35岁的人患结节的危险因素不到百分之一,而50岁的人患癌的结节占50%。其他肺癌的风险如下:规模较大的结节比小结节更有可能是癌症,吸烟者比非吸烟者更容易患癌症,形状圆结节更可能是癌症。在X线检测肺结节的困难如下:结节大小不同;结节直径的大小的变化;一些肺结节与周围肺组织的密度差异不明显,难以确认;结节可以出现在肺区域的任何地方,这造成了与背景较大变化的对比度。  图形用户界面(GUI)。图形用户界面点击控制软件允许用户通过点击与图片和图标互动。它允许我们在一段程序中放入很多信息。GUI系统的创造和设计很好,允许所有用户甚至未经训练的用户操作该系统。我们系统的用户不需要记住任何东西,因为我们的GUI系统的功能中带有交互式图形元素。它提供了与其他设备的高效交互,如键盘和鼠标。  数据预处理。为了更好地表示数据,数据预处理过程包括数据集成、数据转换、数据压缩和数据清洗。预处理技术取决于需要开采的数据和信息的类型。在我们的项目中,我们在数据收集应用两种预处理方法如:数据清洗,清洗的过程就好比除去图像中的噪声。在应用预处理的技术之前,有一些大的图片显得非常明亮或者显得太暗。第一步要做的调整图像并去除图像中的噪声,然后我们应用增强技术。图像增强是图像处理的操作之一,应用到一个图像来产生图像的外形美观图像增强有助于改善在特定的应用中的图像。图分割。图像分割是肺癌检测前处理阶段。肺分割是找到肺结节过程中非常重要的一个阶段,在位于肺内或肺边缘上查找。一旦肺结节很小,很难被我们的肉眼看到。因此,用算法改善肺结节的敏感性使其便于观察。有两个技术用于肺分割,阈值分割法和分水岭分割法。阈值技术。我们提出了图像分割的阈值技术。阈值分割技术是图像分割的最有力的工具。相比灰度图像,通过阈值分割的图像有以下优势:存储空间小,处理速度快,容易操作。  局部阈值。在我们的系统中,我们使用局部的阈值。它检查每个像素附近的强度值。这个统计量主要取决于图像。计算局部强度的均值分布既简单又快速。邻域像素的大小必须大到足以覆盖足够的背景和前景的像素。这种方法有更少的计算强度并产生良好的结果。  分水岭分割。应用阈值法之后,为了从肺中将肺结节分割出来,我们使用手动决策划分感兴趣区域和不想要的地区。这些都是通过确切地选择该区域是预期的肺结节区域或者是受肺癌影响的区域来确定的。然后双击该区域,将这两个区域显示得不同。  特征提取。所需的特征提取阶段为了构建需要被开采数据库。从肺图像组织提取的特征由mysql创造的数据库进行管理。这些特征用于图像的分类。提出的许多特征的目的是区分正常的肺图像和异常的肺图像。但是有一些特征是从大量的特征中选择出来被用来构成肺癌诊断系统,使得该系统更加实用。这一阶段包括两个处理步骤:提取感兴趣的区域和提取等特参数。  提取感兴趣区域。首先我们利用阈值提取肺结节的边界,我们使用滑块来改变它的值得到适当的目标部分。然后我们应用形态学操作分离不想要的肺图像中的区域。在形态学操作中,我们使用手动操作选择感兴趣的区域并将其裁剪下来。  提取的特征参数。这些特征参数是作为肺癌分类过程的基础。在我们的系统中,这些特征是从DICOM图像中提取出来的。一共提取了有六个特征用来进行分类。这些特征有:面积。它是一个标量值,给出了感兴趣区域(ROI)中的实际结节像素的数量。它通过对感兴趣区域中的像素点求和得出;周长。它是一个标量值,给出了结节轮廓的实际像素点的数量。它是通过求和感兴趣区域轮廓的像素点的数量得出的;体积及形状。它是一个标量,用来测量感兴趣区域的球形状和离心率。它们的比值对于球形等于1,对于椭球形小于1;直径。是通过感兴趣区域的圆圈中心点之间的距离;另外还有平均强度和重心。  图像数据库。医学数字图像和通信(DICOM)代表了医学图像的格式。它允许部署和查看任何种类的原始形态的医学图像。图像存档和通信系统(PACS)是允许拱起的网络或计算机系统存储、传输、检索医学图像。PACS的主要目的是整合不同的组件,贡献或分析医学图像等医疗信息系统,用于在医疗中心内或之间的图像传输。  主成分分析(PCA)。主成分分析在我们的系统的目的是为了降低数据的维数。主成分分析的目的是为了保护包含的数据中尽可能多的信息。该任务是找到一组特征值的主要成分。PCA的应用需要一个预处理阶段,在这里原始变量以一种方式转换对数据集进行分析。通过方差和均值有不同的数据集预处理方式。通过使用方差标度数据集处理和变量线性变换转化为方差的新单位。通过使用均值标度提供了一个很好数据分析的参考点。人工神经网络(ANN)。人工神经网络是一种基于生物神经网络的计算模型,它能够捕获和表示复杂的输入或输出数据之间的关系。ANN是可调节的系统,它根据学习阶段通过网络的信息来改变网络结构。人工神经网络的结构由输入层、隐藏层和输出层组成。输入层的节点数等于变量数据集的数量。在这篇文章中,输入层有20节点,为获得更好的结果我们选择不同的隐层节点的数量,输出层有2个节点。由输出层表示的节点将对输入是否出现进行分类。网络,我们通过创建网络将输入数据划分为简单的元素来解决复杂的问题。以下是本系统用到的网络组件类型:节点,该组件是用于接收输入的过程,产生输出;连接线,该组件用于确定我们系统的流动的信息。我们的数据是双向,在训练过程中信息可以流向任意的方向。节点之间的相互作用,它用于识别全局网络的行为,通过改变网络并使其成为功能更强大的诊断工具。算法使用。我们使用一个前馈传递函数与tan-sigmoid函数的输出。网络神经元之间的输入映射值分别为+1和1。在我们的肺癌检测系统中,我们采用前馈反向传播算法用来减少错误。一旦我们向前输入数据,则误差将向后传播。错误导致的区别是实际价值和预期的结果。一开始我们采用随机权重进行训练,然后我们继续训练网络直到具有最小误差的结果被获得。使用的人工神经网络与不同的步骤有联系。根据方案数据集的大小以及假定的样本可分为:88∶17∶17。这意味着70%的例子被分配到训练,15%的例子分配给验证,15%的例子分配给测试。个别患者随机分类给不同的组里。通过改变隐含层神经元的数量来评估预测性能。人工神经网络的进一步研究是基于隐藏层神经元的数量,当人工神经网络拥有很小的均方误差(MSE)。在我们的系统中,反向传播(BP)的学习用了17个训练周期。  结果。采用的预测肺癌复发的ANN架构是基于输入的训练数据,验证和测试数据集。收集到的分类统计训练、验证和测试集被显示出来。接受者操作特性曲线(ROC曲线)是一块真阳性率(灵敏度)与假阳性率(1-特异性)。完美的测试将显示了从左下角,左上角,右上角或近似于这种曲线。对于我们的情况下,该网络表现得很好。用本文提出的方法区分测试集中的肺癌患者和非肺癌患者的水平有97%。ANN是很不错的并适合网络的结构。测试集中114名患者中的107名患者被正确地分类于复发和生存之间,这意味着人能够利用高度相关概率变量来预测肺癌复发,使其达到94%的复发率和100%的存活率。ANN分类分析是由不同隐层神经元的数量,可以判断最适合网络的神经元数量。合适的隐层的深度网络有81个隐含层节点,并且存在的最小误差为0.0588,我们选择和使用该参数进行复发肺数据集的分类分析。  利用主成分分析(PCA)我们获得变量提供的相似的信息与相异的信息。在系统中,变量之间的距离越短越相似。对输入变量进行主成分分析的贡献分析。病人变量有用的洞察贡献了分析。这种分析,可以判断最重要的参数的贡献高比例和不太重要的贡献低比例。非常重要的是3D体积,2D体积,3D直径,2D直径。较小比重的参数有密度、胸膜和ERCC1的关系。标签的值为0表示肺癌的复发,为1显示没有复发。因此,主成分分析得到的结果显示了不同变量的肺癌相似度,并且ANN成功证实了递归和非递归分类精度的高低。
其他文献
Imaging-guided cancer therapy provides a simultaneous tumor imaging and treatment, which helps to eliminate the excessive toxicity to the healthy tissues. For t
保持共产党员的先进性,是一项长期、艰巨、系统的党建工程,要解决的问题十分繁多,而重视和建立稳固的长效机制,无疑是保证共产党员先进性的一把利器。在保持共产党员先进性的
共产党人的最高理想和最终目标是实现共产主义。中国共产党党章明确要求,中国共产党员必须是有共产主义觉悟的先锋战士,必须全心全意为人民服务,为 The highest ideal and u
根据江西省示范区晚稻节水灌溉试验资料,研究了不同灌溉模式下叶片水分利用效率随光合有效辐射的变化规律,分析了光合有效辐射与叶片水分利用效率的主要影响因子,气孔导度、
采用气相离子迁移谱(Gas chromatography-ion mobility spectroscopy,GC-IMS)对平阴县种植的3种不同品种玫瑰(重瓣玫瑰、大马士革玫瑰、格拉斯玫瑰)精油的挥发性成分进行了对
随着全球性气候变化,CO2减排问题得到了越来越多的关注。以矿物燃料为主要能源的火电厂是CO2的一个集中排放源,火电厂的CO2减排对减缓温室效应具有重要的意义。火力发电厂针对C
目的观察比较后腹腔镜与传统手术治疗肾肿瘤的临床效果。方法研究对象为医院收治的133例确诊为肾肿瘤患者并随机分为观察组67例和对照组66例。对照组采用传统手术方法治疗,观
近海或内海养殖水域富营养化、水质污染、海洋生态环境恶化等问题已成为世人所关注的问题。也是制约水产业发展的瓶颈问题。如何有效地修复近海生态环境降低富营养化,恢复渔业
目前,磷化氢作为公认的磷的气相载体存在于自然界中,在陆源大气、土壤、盐沼湿地和湖泊等环境中均发现了该化合物的存在。磷化氢的发现,是对磷的生物地球化学循环过程的一种重要
以网套、 无纺布、SO2杀菌保鲜纸、 单一网套、 气调保鲜袋、 单一气调保鲜袋、 充气柱等包装材料为贮藏保鲜材料,共设定10个贮藏保鲜处理,研究不同处理对西州密25号哈密瓜贮