论文部分内容阅读
目的:本研究使用多种机器学习算法,构建标准化的证型、舌图像获取途径。再与临床综合数据特征融合,构建2型糖尿病并发肾病混合深度神经网络诊断预测模型。通过模型对比评估,探索中医证候与舌图像对疾病风险预测的实际意义。方法:1.数据采集:按照依据相应的诊断标准,纳入2型糖尿病患者。采集患者的中医四诊信息,根据证型诊断标准,采用“症状-证素-辨证指南-专家经验”的方式,分别标注所有患者证型作为原始数据。使用统一的图像采集装置,按照统一标准采集患者舌面图像。采集患者临床综合数据,包括一般信息、辅助检查指标等。依据糖尿病肾病的诊断标准,将患者标注为非糖尿病肾病、糖尿病肾病。2.数据预处理:对原始数据进行集成,去除异常数据、重复数据和错误数据并将格式进行规范化,采用特征平均值对缺失值进行填补。对二分类变量采用独热编码(One-Hot),连续性变量进行归一化处理。采用主成分分析或探索性因子分析进行特征降维,应用经典的洗牌算法(Shuffle)将数据顺序打乱,使数据分布均匀,按照8:2的比例将数据分为训练集与测试集。3.证候分类模型构建:筛去频率<10%的症状条目。将剩余的中医四诊信息,采用探索性因子分析进行特征降维,获得公共因子结构。降维之后的公共因子,分别使用支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)、K最近邻(k-Nearest Neighbor,KNN)、bagging_K邻近、bagging_决策树、随机森林(Random Forest,RF)、自适应增强(Adaptive Boosting,adaboost)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、人工神经网络等多种机器算法,构建2型糖尿病证候分类模型,比较模型预测准确度,判断模型分类性能。4.舌图像自动分割模型构建:将患者舌面图像,使用基于python3.6的labellme软件对舌体区域进行标记。采用多任务卷积神经网络,构建舌体区域边界检测定位模型。采用医学图像分割算法attention U-net提取出图像中的舌体,以Ground-truth(真值)图像为标准,计算平均交并比(MIo U)91.05%、像素精确度(PA)等指标,评估舌体分割的结果。5.中西医多模态特征融合:纳入患者一般信息、辅助检查指标等,数据预处理与特征降维之后,采用上述相同的多种机器学习算法构建模型一。将证型数据按照分类变量进行One-hot处理之后,在前端与模型一的公共因子进行融合,采用上述多种机器学习算法构建模型二。在后端进一步按照0.2-0.4的权重,采用深度学习算法融合舌图像数据训练的单分类器模型,构建模型三。采用准确度、特异性、敏感性,对模型预测效果进行评价。结果:1.一般信息特征分布:纳入2型糖尿病患者868例,其中男性521例,占比60.02%;女性347例,占比39.98%。患者平均年龄56.2±11.84岁,以61-70年龄段人数最多。根据BMI分布,超重与肥胖占比达到52.99%。2.主要症状、证候分布:症状(不含舌脉)中,频率大于10%的症状共29项。所有脉象中,频率大于10%的症状共6项。证型分布中,气阴两虚证151例为最多,占比17.40%;其次为气阴两虚兼血瘀149例,占比17.17%。各证型在并发肾病与无肾病的病例内部,2型糖尿病无肾病较多的证型为气阴两虚19.94%、气阴两虚兼血瘀17.85%、肝肾阴虚15.76%;而并发肾病较多的证型为气阴两虚兼血瘀16.26%、肝肾阴虚兼血瘀14.63%、肝肾阴虚12.60%。3.证素分布:采集到的症状指标,筛去频率<10%症状条目后,剩下42项症状,采用探索性分析进行效果优于主成分分析。对42项症状指标进行降维处理,当提取15个公共因子的时候为最优,累计方差贡献率为67.5229%。15项公共因子所包含的病位证素频率从高到低分别为肝、肾、胃、心、脾,病性证素频率从高到低分别是热盛、阴虚、气虚、阳虚、瘀血、痰浊、血虚。4.证候分类预测模型:准确度分别为支持向量机62.65%,决策树61.18%,多项式朴素贝叶斯77.06%,K最近邻64.12%,bagging_K邻近74.12%,bagging_决策树68.53%,随机森林75.36%,自适应增强56.48%,梯度提升决策树79.06%,人工神经网络87.70%。5.舌图像分割模型:采用多任务卷积神经网络(MTCNN)构建级联CNNs的架构,为三种网络的组合(P-Net、R-Net、O-Net)。效果显示,边界检测平均精确度60%(AP60)为59.5%,交并比(Io U)为93.2%,明显优于VJ人脸检测算法、HOG方向梯度直方图算法、DPM可变形部件算法。舌边特征点定位平均错误率(MER)为2.5%,故障率(FR)2.9%,效果优于ASM主动形状模型算法、AAM主动外观模型算法、CPR级联形状回归模型算法。采用深度学习构建起舌图像分割模型,提取出图像中的舌体,算法分割精度Ground-truth(真值)得出平均交并比(MIo U)91.05%、像素精确度(PA)93.31%。6.中西医特征融合的疾病预测模型:对患者53项临床综合数据指标进行特征降维,主成分分析的效果总体是优于因子分析,当提取20个公共因子的时候为最优,累计方差贡献率为72.9351%。本研究所构建的模型一所采用算法中,准确度最高为人工神经网络81.16%,灵敏度最高为人工神经网络82.57%,特异度最高为人工神经网络84.80%。模型二所采用算法中,准确度最高为人工神经网络85.13%,灵敏度最高为人工神经网络83.07%,特异度最高为人工神经网络85.25%。模型三,准确度为88.46%,灵敏度79.36%,特异度91.51%。结论:1.2型糖尿病病位证素主要包括肝、肾、胃、心、脾,病性证素主要包括热盛、阴虚、气虚、阳虚、瘀血、痰浊、血虚。无肾病患者证型以气阴两虚、气阴两虚兼血瘀、肝肾阴虚为主,并发肾病的患者证型以气阴两虚兼血瘀、肝肾阴虚兼血瘀、肝肾阴虚为主。2.采用探索性因子分析特征降维,结合神经网络构建证候分类模型,可实现2型糖尿病证候标准化诊断。3.采用深度学习可构建舌图像自动分割模型,实现舌图像的客观化提取。4.在上述基础上,构建起融合临床综合数据、证型、舌图像数据的混合深度神经网络疾病预测方法,该方法采用主成分分析、探索性因子分析结合深度神经网络结构,具有较好预测性能。5.证型、舌图像对促进疾病预测模型的效率具有正向作用,对中西医多模态特征进行融合,可提高2型糖尿病并发肾病预测模型的效率。