论文部分内容阅读
目的由于肺癌发病率及死亡率逐年增长,已成为严重威胁人类健康的恶性肿瘤,也成为亟待解决的公共卫生难题。数据挖掘技术在解决大样本和多参数问题的优势使其在医学领域得到广泛研究。本课题组近年来一直致力于肺癌辅助诊断的研究,癌胚抗原((carcinoembryonic antigen, CEA)、神经元特异性烯醇化酶(neuron specific enolase, NSE)、胃泌素(gastrin)、唾液酸(sialic acid, SA)、铜锌比值(Cu/Zn)和血清钙离子等6种肺癌标志组成肺癌生物标志群,并应用人工神经网络(artificial neural network, ANN)技术建立了肺癌辅助诊断系统。此研究将探讨这6项指标作为焦炉作业工人暴露标志的可能性;同时重建ANN模型,并与决策树C5.0模型和支持向量机(support vector machine, SVM)模型比较;并尝试将模型用于焦炉工人高危个体的筛选,对其应用性进行初试,为后续研究建立队列。对象与方法1.研究对象:建模样本包括后面正常对照样本为题组前期工作所得。正常对照样本取自郑州大学第一附属医院111例。暴露组为安阳钢铁集团有限公司焦化厂的焦炉作业工人183例。2.实验方法:采用放射免疫法检测CEA、NSE和胃泌素,原子吸收分光光度法检测血清铜、血清锌的浓度,运用课题组改进的间苯二酚显色法测定唾液酸,血清钙浓度由全自动化分析仪测定。3.数据挖掘:样本按3:1的比例随机分成训练集和预测集,运用人工神经网络技术、决策树技术和支持向量机建模,然后对预测样本进行预测,并结合诊断试验评价指标及ROC曲线对这三种模型的预测结果进行比较,3种模型均采用SPSS Clementine12.0软件实现。4.运用SPSS21.0软件进行统计学分析。根据具体的资料分布类型选择统计学检验方法,定性资料组间比较用χ2检验。检验水准α=0.05。结果:1.暴露组和对照组中CEA、Cu/Zn和Ca差异有统计学意义(P<0.05),其中暴露组CEA水平和Cu/Zn高于对照,血清钙水平则低于对照组。工龄对CEA水平有影响,工龄超过16年组CEA水平比小于16年组高(P<0.05),未发现炉侧、炉顶和炉底工人间的差异。2.数据挖掘模型及其评价:ANN模型的灵敏度、特异度和准确度分别是90.91%、97.92%和93.81%,表明其有良好的重现性。C5.0和SVM模型灵敏度、特异度和准确度分别为93.94%、91.67%、88.8%和90.91%、93.75%和91.36%;三者ROC曲线下面积(AUC)及其95%置信区间分别为0.969(0.916-1.000)、0.944(0.892-0.996)和0.947(0.897-0.997),但差异无统计学意义(P>0.05)。3.数据挖掘模型预警结果:ANN模型将01252号归类到肺癌预警对象;SVM模型将01085号和01239号样本分类到肺癌预警对象;C5.0模型则是将01073号、01144号、01145号、01178号、01238号和01239号归类到肺癌预警对象。但目前体检结果尚未得到证实,建议课题组作为重点对象进行观察。结论1.焦炉作业工人血清CEA升高,且随工龄增长而升高,可作为早期健康损害的效应标志进行研究。2.数据挖掘中的人工神经网络技术、决策树技术及支持向量机结合6项肿瘤标志群建立的智能模型可用于焦炉作业工人中肺癌高危个体的预警,为课题组进一步深入研究提供依据。