论文部分内容阅读
目的:研究数据挖掘技术在血清肿瘤标志物(STM)联合检测诊断消化道恶性肿瘤(DTC)中的应用可能性,选择合适的分类器,并讨论其用于诊断消化道恶性肿瘤时的性能如何。
方法:对301例DTC和114例消化道良性疾病患者的血清肿瘤标志物CA19-9、CA242、CA50、CEA检测值,分别建立基于统计Logistic回归、反向传播神经网络和朴素贝叶斯方法的诊断分类器,并进行10折交叉验证。利用诊断敏感度、特异度和接受者操作特征(ROC)曲线下面积对三种数据挖掘分类器、CA19-9以及4种STM并联诊断DTC的性能进行评价。
结果:神经网络模型的敏感度和ROC曲线下面积(Az)分别为92.0%和0.903,高于STM并联诊断的敏感度83.4%和CA19-9诊断的Az=0.806,特异度69.3%与STM并联诊断的特异度68.4%相当;Logistic回归模型的敏感度91.4%高于STM并联诊断,特异度45.6%低于STM并联诊断,Az=0.819与CA19-9诊断相当;贝叶斯分类器的敏感度72.8%低于STM并联诊断,特异度75.4%和Az=0.797与STM并联诊断和CA19-9诊断相当。Logistic回归模型、BP多层感知机和朴素贝叶斯分类器敏感度的变异系数分别为5.14%、6.06%和12.14%,朴素贝叶斯分类器敏感度的变异系数最大,Logistic回归模型和BP多层感知机敏感度的稳定性相近。Logistic回归模型、BP多层感知机和朴素贝叶斯分类器特异度的变异系数分别为25.45%、15.98%和22.04%,BP多层感知机特异度的变异系数最小,Logistic回归模型和朴素贝叶斯分类器特异度的稳定性相近。Logistic回归模型、BP多层感知机和朴素贝叶斯分类器正确率的变异系数分别为7.62%、6.57%和10.20%,朴素贝叶斯分类器正确率的变异系数最大,Logistic回归模型和BP多层感知机敏感度的稳定性相近。
结论:数据挖掘技术的分类方法中,神经网络的分类方法比单一STM及其并联诊断的准确性高,Logistic回归和贝叶斯方法的诊断水平与普通STM并联诊断水平相当;从分类器的稳定性考虑,神经网络模型的性能最稳定。在三种数据挖掘分类器中,神经网络模型的性能和稳定性均较高,适宜在本研究中作为多肿瘤标志物诊断消化道恶性肿瘤的工具,并可进一步应用于计算机辅助诊断中。