基于参数优化的SVM分类器在肺癌早期诊断中的应用

来源 :郑州大学 | 被引量 : 0次 | 上传用户:tianzhihen1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了肺癌诊断的历史及发展现状,在此基础上提出了将支持向量机(SVM)与肺癌早期诊断相结合的新思路,将机器学习应用到实际数据分类中。SVM是一种准确度高的分类器,具有很好的容错和归纳能力,能较好地解决小样本、非线性、高维等分类问题,具有很强的实用性。但在SVM的应用中,核函数、核参数和惩罚系数的选择对结果有很大的影响。本文首先引入常用安德森鸢尾花(fisheriris)数据集在多项式核函数(Polynomial)和径向基核函数(RBF)分类性能上进行直观形象的对比。再用常用的网格划分法寻找最佳参数c和g,之后为了提高分类效果,又分别用遗传算法(GA)和粒子群算法(PSO)对参数进行优化,将优化后的SVM算法用于肺癌数据集的分类中。在最后又与目前比较热门的其他分类方法:决策树C4.5算法和模糊神经网络算法进行比较,并将各种算法的分类性能在ROC空间显示。方法:以胸部CT片中提取出的21项放射学特征和5个临床参数为基础,将117例病例样本随机分为训练集和测试集,将数据归一化后用主成分分析法(PCA)对数据进行降维处理,并训练SVM网络。通过比较并利用经验,选用RBF核函数,然后先用常用的网格划分法选择合适的惩罚参数c和核参数g,用测试集测试该网络区分肺癌和非肺癌的能力。之后再分别用GA和PSO对参数进行优化,重复之前的过程,每种方法的参数选择均在K-CV意义下进行。最后将各种方法的结果进行对比,其中也包括探索算法历程中尝试过的C4.5算法和模糊神经网络算法,发现各种算法的优缺点,找到其中最合适的。结果:通过测试集输出结果对比,发现优化后的SVM网络虚警(假阳性)和漏检(假阴性)率较低,分类精度比优化前有所提高。PSO优化的SVM网络性能最好,44例测试样本中错误3例(第5例假阳性,第36例,第38例假阴性),ROC曲线下AUC值最大,GA优化次之,错误4例。基于三角型隶属度函数的模糊神经网络错误5例,基于高斯型隶属度函数的错误4例,C4.5算法在分类精度上最差。而且PSO优化计算速度较快,且对病例样本分组变化不敏感,有更好的泛化能力。因此,PSO优化的SVM网络更适用于肺癌诊断,值得进一步研究。
其他文献
由于统计方面的原因,1949年以来中国耕地资源数量变化至今尚没有一个客观的描述。针对该问题,论文对1949~2003年不同时期不同来源的耕地数据系列进行分析,认为统计数据存在问
目的观察全麻甲状腺术后患者在预防雾化吸入布地奈德后咽喉部症状的改善情况。评价不同方式雾化吸入对患者气管插管后咽喉部症状和体征的疗效。方法将120例采用全身麻醉行气
目的:吉西他滨已作为一线化疗药物广泛用于非小细胞肺癌(non-small cell lung cancer, NSCLC)的治疗,但患者对其敏感性偏低限制了其临床应用,最近有研究提示二甲双胍与化疗药物间
<正>法治属于政治文明,德治属于精神文明。法律以其权威性和强制手段规范社会成员的行为,道德则以其说服力和劝导力来提高社会成员的思想认识和道德觉悟。二者所属范畴固然有
目的:研究Yes相关蛋白(Yes-Associated Protein, YAP)在肝细胞癌(Hepatocellular Carcinoma Cell, HCC)中的表达对多柔比星耐药的影响;初步探讨肝癌中YAP过表达参与耐药性相关
目的检测B细胞非霍奇金淋巴瘤(B-NHL)患者血浆p16、shpl基因甲基化状态,并与患者外周白血细胞(PBLs)及肿瘤组织中两种基因甲基化状态进行比较,探讨血浆DNA甲基化检测在B-NHL
旋毛虫(Trichinella speralis)是一种毛形科毛形属寄生虫,对人畜皆有感染能力。根据现有的研究资料表明,旋毛虫对部分肿瘤细胞具有一定的抑制和干扰作用,能够降低肿瘤细胞的增殖能
中国体育产业发展论坛暨《中国体育产业发展报告(2015)》发布仪式于2015年12月12日在首都体育学院隆重举行。大会以回顾2015·展望2016为主线,围绕体育产业的社会价值、蓝皮
人绒毛膜癌是恶性滋养叶细胞肿瘤,常发生在正常妊娠或者异常妊娠后,病变部位主要位于子宫,具有高转移和高侵袭能力,并易通过血行转移到全身,恶性程度极高。因此,研究绒毛膜癌的转移