基于机器学习构建2型糖尿病并发肾脏病中西医多模态特征融合预测模型

来源 :成都中医药大学 | 被引量 : 1次 | 上传用户:panmandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究使用多种机器学习算法,构建标准化的证型、舌图像获取途径。再与临床综合数据特征融合,构建2型糖尿病并发肾病混合深度神经网络诊断预测模型。通过模型对比评估,探索中医证候与舌图像对疾病风险预测的实际意义。方法:1.数据采集:按照依据相应的诊断标准,纳入2型糖尿病患者。采集患者的中医四诊信息,根据证型诊断标准,采用“症状-证素-辨证指南-专家经验”的方式,分别标注所有患者证型作为原始数据。使用统一的图像采集装置,按照统一标准采集患者舌面图像。采集患者临床综合数据,包括一般信息、辅助检查指标等。依据糖尿病肾病的诊断标准,将患者标注为非糖尿病肾病、糖尿病肾病。2.数据预处理:对原始数据进行集成,去除异常数据、重复数据和错误数据并将格式进行规范化,采用特征平均值对缺失值进行填补。对二分类变量采用独热编码(One-Hot),连续性变量进行归一化处理。采用主成分分析或探索性因子分析进行特征降维,应用经典的洗牌算法(Shuffle)将数据顺序打乱,使数据分布均匀,按照8:2的比例将数据分为训练集与测试集。3.证候分类模型构建:筛去频率<10%的症状条目。将剩余的中医四诊信息,采用探索性因子分析进行特征降维,获得公共因子结构。降维之后的公共因子,分别使用支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)、K最近邻(k-Nearest Neighbor,KNN)、bagging_K邻近、bagging_决策树、随机森林(Random Forest,RF)、自适应增强(Adaptive Boosting,adaboost)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、人工神经网络等多种机器算法,构建2型糖尿病证候分类模型,比较模型预测准确度,判断模型分类性能。4.舌图像自动分割模型构建:将患者舌面图像,使用基于python3.6的labellme软件对舌体区域进行标记。采用多任务卷积神经网络,构建舌体区域边界检测定位模型。采用医学图像分割算法attention U-net提取出图像中的舌体,以Ground-truth(真值)图像为标准,计算平均交并比(MIo U)91.05%、像素精确度(PA)等指标,评估舌体分割的结果。5.中西医多模态特征融合:纳入患者一般信息、辅助检查指标等,数据预处理与特征降维之后,采用上述相同的多种机器学习算法构建模型一。将证型数据按照分类变量进行One-hot处理之后,在前端与模型一的公共因子进行融合,采用上述多种机器学习算法构建模型二。在后端进一步按照0.2-0.4的权重,采用深度学习算法融合舌图像数据训练的单分类器模型,构建模型三。采用准确度、特异性、敏感性,对模型预测效果进行评价。结果:1.一般信息特征分布:纳入2型糖尿病患者868例,其中男性521例,占比60.02%;女性347例,占比39.98%。患者平均年龄56.2±11.84岁,以61-70年龄段人数最多。根据BMI分布,超重与肥胖占比达到52.99%。2.主要症状、证候分布:症状(不含舌脉)中,频率大于10%的症状共29项。所有脉象中,频率大于10%的症状共6项。证型分布中,气阴两虚证151例为最多,占比17.40%;其次为气阴两虚兼血瘀149例,占比17.17%。各证型在并发肾病与无肾病的病例内部,2型糖尿病无肾病较多的证型为气阴两虚19.94%、气阴两虚兼血瘀17.85%、肝肾阴虚15.76%;而并发肾病较多的证型为气阴两虚兼血瘀16.26%、肝肾阴虚兼血瘀14.63%、肝肾阴虚12.60%。3.证素分布:采集到的症状指标,筛去频率<10%症状条目后,剩下42项症状,采用探索性分析进行效果优于主成分分析。对42项症状指标进行降维处理,当提取15个公共因子的时候为最优,累计方差贡献率为67.5229%。15项公共因子所包含的病位证素频率从高到低分别为肝、肾、胃、心、脾,病性证素频率从高到低分别是热盛、阴虚、气虚、阳虚、瘀血、痰浊、血虚。4.证候分类预测模型:准确度分别为支持向量机62.65%,决策树61.18%,多项式朴素贝叶斯77.06%,K最近邻64.12%,bagging_K邻近74.12%,bagging_决策树68.53%,随机森林75.36%,自适应增强56.48%,梯度提升决策树79.06%,人工神经网络87.70%。5.舌图像分割模型:采用多任务卷积神经网络(MTCNN)构建级联CNNs的架构,为三种网络的组合(P-Net、R-Net、O-Net)。效果显示,边界检测平均精确度60%(AP60)为59.5%,交并比(Io U)为93.2%,明显优于VJ人脸检测算法、HOG方向梯度直方图算法、DPM可变形部件算法。舌边特征点定位平均错误率(MER)为2.5%,故障率(FR)2.9%,效果优于ASM主动形状模型算法、AAM主动外观模型算法、CPR级联形状回归模型算法。采用深度学习构建起舌图像分割模型,提取出图像中的舌体,算法分割精度Ground-truth(真值)得出平均交并比(MIo U)91.05%、像素精确度(PA)93.31%。6.中西医特征融合的疾病预测模型:对患者53项临床综合数据指标进行特征降维,主成分分析的效果总体是优于因子分析,当提取20个公共因子的时候为最优,累计方差贡献率为72.9351%。本研究所构建的模型一所采用算法中,准确度最高为人工神经网络81.16%,灵敏度最高为人工神经网络82.57%,特异度最高为人工神经网络84.80%。模型二所采用算法中,准确度最高为人工神经网络85.13%,灵敏度最高为人工神经网络83.07%,特异度最高为人工神经网络85.25%。模型三,准确度为88.46%,灵敏度79.36%,特异度91.51%。结论:1.2型糖尿病病位证素主要包括肝、肾、胃、心、脾,病性证素主要包括热盛、阴虚、气虚、阳虚、瘀血、痰浊、血虚。无肾病患者证型以气阴两虚、气阴两虚兼血瘀、肝肾阴虚为主,并发肾病的患者证型以气阴两虚兼血瘀、肝肾阴虚兼血瘀、肝肾阴虚为主。2.采用探索性因子分析特征降维,结合神经网络构建证候分类模型,可实现2型糖尿病证候标准化诊断。3.采用深度学习可构建舌图像自动分割模型,实现舌图像的客观化提取。4.在上述基础上,构建起融合临床综合数据、证型、舌图像数据的混合深度神经网络疾病预测方法,该方法采用主成分分析、探索性因子分析结合深度神经网络结构,具有较好预测性能。5.证型、舌图像对促进疾病预测模型的效率具有正向作用,对中西医多模态特征进行融合,可提高2型糖尿病并发肾病预测模型的效率。
其他文献
随着当今大规模网络的发展,基于SNMP的Manager/Agent模型的网络管理系统越来越暴露出自身的局限性。移动Agent技术的移动性、自治性等诸多优点非常适合网络环境的系统异构,由此
幕墙工程中竖框连接形式多样、受力复杂。但《玻璃幕墙工程技术规范》(JGJ102-2003)并未介绍竖框采用何种布置方式更为经济合理,在此对这方面的计算方法进行了论述。
创建以权责发生制为前提的政府综合财务报告机制,能充分体现政府各类资产与负债的具体情况,有利于对政府绩效进行高效评估。目前,政府综合财务报告编制的不足主要有:政府资产
中国中高职衔接目前已经进入深度衔接阶段,各学科已经基本完成架构的衔接。不过,在这一过程中,中高职英语教学的衔接问题仍较为突出,体现在教学大纲、教学内容及程评价方式等
计算机文化素质是21世纪人才的基本素质要求,高校在开展计算机文化素质教育的过程中,首先应注重对学生的信息意识和信息道德修养的培养,其次应采取不断更新教学内容、积极探索教
目前的教学平台设计,很难针对学生和学习问题(教学任务、学习任务)的特点,对教学资源进行有效的任务适应性及个性化协同管理,基于智能型Agent平台能有效克服上述障碍。智能型Ag
执著探究孙中山的学者──《孙中山传》作者尚明轩访谈录日农中国近现代史研究,特别是对孙中山与宋庆龄的研究中,尚明轩先生可谓是位勤奋的多产的学者。仅在近十多年间,这位史学
当前形势下,城市化进程不断推进,我国多个城市都将市政建设作为工作开展的重点。路桥工程是市政建设的重要组成部分,其建设质量直接影响着人们的日常出行。为了充分满足人们
第一部分:阿帕替尼对非小细胞肺癌氨基酸代谢的影响及机制探讨目的:探索阿帕替尼对非小细胞肺癌氨基酸代谢的影响及相应的调控机制。方法:将阿帕替尼作用于人源性非小细胞肺