论文部分内容阅读
疾病诊断是临床诊疗的首要环节,利用电子病历数据进行疾病的自动诊断分析是近年来医学信息学与医学人工智能研究的热点。随着中医院电子病历系统的广泛应用和推广,利用中医电子病历进行疾病诊断研究具备了可行性,鉴于中医电子病历(住院病历)以中西医结合的诊疗过程为主要内容以及中西医临床诊断特征的差异性,基于西医电子病历的相关研究能否直接推延到中医临床环境,是一个有待探索的问题。本文通过结合一定规模的中医电子病历和中医领域知识开展疾病诊断方法研究,构建了多种疾病诊断的标准数据集,并重点在特征处理和表示学习方面进行探索,结合多种分类学习模型,提出了几种具有一定实用价值的疾病诊断新方法,主要研究结果包括如下两个方面:首先,本文按照诊断的纳入标准收集并整理了一批中医电子病历数据,构建了多种专病的标准数据集,包括慢性病毒性乙型肝炎数据集(1366个诊次),二型糖尿病数据集(856个诊次)和肝硬化数据集(2304个诊次),以上数据集包含症状、舌脉象、中药、既往史和实验室检查信息等多种临床特征;在分析不同种类临床特征重要性的基础上,提出了基于权重的特征筛选方法,结合多种分类模型(如逻辑回归、SVM、集成学习和Stacking模型),在构建的标准数据集上进行了比较实验分析。研究结果表明,基于特征筛选的疾病诊断方法,能达到基于专家人工筛选特征的疾病诊断方法的效果,相比无特征筛选的基线方法诊断性能显著提升,同时,在使用Stacking模型时取得了最好性能(AUC值在三个数据集上相较于基线方法分别为 0.919 vs 0.676,0.922 vs 0.68,0.979 vs 0.911)。其次,本文引入基于网络嵌入的深度特征表示方法,结合中药靶点等网络数据,进行特征表示学习,提出了基于网络嵌入的疾病诊断方法。该方法能够根据不同特征之间的相似性来对病人的特征进行扩展和补充,从而提升诊断性能。结合Stacking模型,该方法在慢性病毒性乙型肝炎、二型糖尿病和肝硬化数据集上的AUC 值分别达到了 0.965、0.966 和 0.988。以上研究表明,结合Stacking模型的基于网络嵌入的疾病诊断方法存在较大优势,已经具备了针对不同疾病进行预测的实用价值,有望成为一种有潜力的基于中医电子病历的疾病诊断方法。