论文部分内容阅读
疾病智能分析系统是典型的临床决策支持系统,是人工智能研究领域非常活跃的分支。疾病预测模型是疾病智能分析系统的核心部分,采用机器学方法依据医学数据集构建疾病预测模型,在分析患者病情基础上给出诊断结果,从而帮助医生进行辅助诊断。然而目前疾病智能分析系统存在一些问题,限制了疾病智能分析系统的发展。首先,现有疾病预测模型大多针对单一疾病进行预测分析,无法满足临床上多种疾病鉴别诊断需求;此外,医学数据具有不均衡特点和小样本特点,限制了疾病预测模型的性能;最后,主流疾病预测模型直接输出诊断结果,缺乏必要的推理和解释信息。 本文对目前疾病智能分析系统中存在的一些问题进行了研究,主要内容如下: 1,研究了异构多源医学知识表达与运用方法。针对诊疗规则结构化数据,采用充分条件进行疾病预测结果的补充,利用必要条件进行结果过滤。针对半结构化门诊病历,抽取医学特征集合,利用位编码方式转化为多标签数据集,最终将疾病预测问题抽象为多标签不均衡数据集上的分类问题;针对专业医学书籍非结构化数据,利用知识图谱进行表达,为后续诊断结果提供更多信息;针对疾病预测模型缺乏解释性信息问题,提出基于知识图谱的疾病解释模型,依据疾病预测模型结果和患者信息给出解释信息。 2,针对医学数据集不均衡导致稀有疾病召回率低问题,本文提出了结合集成技术和欠采样技术的疾病预测模型,该模型迭代地从多数类样本中有放回地多次采样部分样本集,以训练多个基础分类器,然后将多个基础分类器加权组合为一个强分类器。该模型将采样概率引入到训练过程中,通过预测效果来调整样本的采样概率,促使模型可以学习不同类型多数类样本特征,以提高分类器性能。为了充分利用标签之间的相关性,提出了一种基于最大带权互信息生成树的标签选择算法,利用标签之间的互信息来衡量标签之间的相关性,进一步提高了少数类样本召回率。实验表明,本文提出的模型在稀有疾病召回率上最多提升30%,在整体样本预测效果上,精确率提升约6%,召回率提升约4%-17%,F1值提升约5%-15%。 3,针对将门诊病历转化为医学特征集合丢失信息问题,本文提出了一种基于卷积神经网络的疾病预测模型,将门诊病历信息作为词序列,利用卷积神经网络获取语义信息;针对稀有疾病模型训练问题,提出结合迁移学习和动态采样的模型,该模型将已训练的多数类疾病预测模型作为稀有疾病的初始化模型,并引入动态采样技术生成均衡训练数据集,利用模型预测结果来更新样本采样概率,使模型更多学习错误分类的样本,从而提高预测模型效果。实验表明,与结合集成技术和欠采样技术的疾病预测模型相比,本章所提模型获取了最高约12%的F1值提升,约6%的召回率提升。