论文部分内容阅读
信息技术的迅猛发展带动了医院的信息化建设,国家政策的支持为电子病历系统等医学信息系统的建立打下了坚实的基础,由此带来了大量的医疗数据,其中电子病历受到了广泛的关注。电子病历是在医疗活动过程中产生的重要临床信息资源,包含了大量与患者健康状况密切相关的医疗知识,充分识别电子病历中的这些知识将大大推动医疗事业的发展。鉴于目前中文电子病历发展现状,本文共开展了如下几项研究:(1)制定中文电子病历命名实体标注规范并构建命名实体标注语料。本文参考I2B2 2010给出的电子病历命名实体类型及修饰类型的定义,在专业医生的指导下制定了详尽的中文电子病历标注规范;通过对大量中文电子病历的分析,提出了一套完整的中文电子病历命名实体标注方案,且采用预标注和正式标注的方法,建立了规模为992份的中文电子病历命名实体标注语料,标注语料的一致性达到了92%以上。(2)开展基于有监督学习的中文电子病历命名实体识别研究。本文采用最大熵(ME)、条件随机域(CRF)、结构化支持向量机(SSVM)三种机器学习方法构建了命名实体识别系统,并在此基础上引入了病历特征、词典特征以及词聚类特征。鉴于中文医学词典与知识库匮乏的现状,本文构建了小规模的电子病历词典,用于辅助命名实体识别研究。同时,在3634份病历的基础上构建了词向量,并对比了K-means和GAAC两种聚类方法。引入三种扩展特征后,SSVM模型系统性能最好,F值达到了92.87%。(3)开展基于组合分类器的中文电子病历命名实体识别研究。本文引入Bagging和Stacking两种组合分类器算法,构建多种组合分类器来进一步提高实体识别效果。其中,以采用Stacking策略,CRF与SSVM结合的组合分类器效果最优,系统性能最终达到92.97%。综上所述,本文制定了中文电子病历命名实体标注规范并构建了相关语料,实现了基于三种有监督学习方法的命名实体识别系统,并引入扩展特征与组合分类器算法对系统性能进行提升。与目前仅有的两个团队的研究成果相比,无论是在实体类型定义上,语料规模上,还是系统性能上都具有一定的优势。