论文部分内容阅读
随着医疗技术的飞速发展和医疗IT系统(EHR/PACS/HIS/LIS等)的普及应用,海量、分布、异构的医学数据随之产生。同时,医疗行为越来越依靠对数据的判断,且随着医疗设备种类覆盖面越来越广,数据精度的逐渐提升,临床诊断也正在从定性判断向定量分析转变。电子病历记录了患者详细的诊疗过程,数据内容丰富,因此,开展电子病历文本挖掘对于提高临床诊疗效率和水平具有重要意义。本文基于临床产生的大量电子病历数据,通过数据预处理、疾病文本聚类、诊疗模式挖掘和病历关联分类关键算法的研究,发现病历中有价值的规则、模型,并应用于临床决策支持系统。本文创新性地完成以下工作。(1)针对电子病历数据存储结构不统一、部分数据项缺失、数据项值不标准,同义或否定表达导致信息抽取困难等问题,本文提出了一种基于元数据的病历清洗算法。首先系统地定义电子病历元数据库,包括用于抽取、加载的技术元数据和用于数据值标准化、转换的业务元数据;然后采用数据适配器模型实现病历数据在线自动抽取、转换和存储。针对清洗后病历中存在的大量非结构化数据,提出了规则与条件随机场相结合的病历实体识别算法,为后续的算法研究提供结构化的病历数据。(2)针对电子病历数据中疾病命名不统一、不标准,缺乏疾病命名分类标准问题,本文提出了一种面向短文本的疾病层次概念聚类算法。首先基于病历中获取各种疾病诊断文本,采用自适应的疾病中心概念聚类方法,实现疾病同义文本的识别;然后采用基于潜在概念的疾病层次概念聚类方法实现层次化的疾病分类标准构建。同时针对疾病文本的特点,提出了一种基于集合的快速短文本相似度量方法。实验结果表明该方法可以快速准确地对疾病文本进行同义识别和层次概念构建。(3)针对关系模式挖掘算法缺乏对数据项间分类关系的考虑或分类关系单一、算法效率低问题,本文提出了一种基于多层多分类的诊疗关系模式挖掘算法。该算法可以适应泛化、聚合、关联和依赖四种分类关系类型,有效去除了冗余的关系模式。同时,该算法提出一种多层图数据结构和多层遍历方法,将病历的事务数据和分类关系数据融合在一起,实现关系模式的快速查找,避免传统方法多次扫描数据库的问题。(4)在病历分类研究方面,基于神经网络的疾病分类方法应用广泛,但对于训练数据的数量都会有一定的限制,并且对于新的病历内容需要重新训练模型,扩展性不强,训练时间较长。关联分类方法虽然可以根据分类规则快速构建分类模型,但是缺乏对分类规则间耦合关系的考虑,且缺乏统一的分类判别模型。本文提出了一种基于神经网络的关联分类算法,该方法能够实现神经网络快速地结构建立和参数设置。同时为关联分类方法的决策过程提供一种通用、定量的描述模型。为验证上述算法的有效性,本文将上述挖掘算法分别应用到临床病历挖掘系统和病历语义检索系统,实践表明上述算法满足临床辅助决策应用需求。