论文部分内容阅读
中医学是以观察型临床诊疗实践研究为基础的临床医学,病历是医务人员对诊疗过程进行的全面记录,是保证和提高诊疗质量,加强教学和促进科研的重要档案资料,是临床医生宝贵经验的载体。因此,中医临床病历已经成为中医学和信息学关注的重要数据资源。当前,以英文语言为载体的生物医学文献文本挖掘和自然语言处理应用、算法和语料库等已较为成熟,但国际上临床病历的研究仍处于前沿,且我国的中文临床病历文本挖掘研究更是处于起步阶段。其中,大规模领域语料库的研发是推动高质量研究的基础,由于中医领域尚无成型的规模化语料库,因此,中医临床病历语料库及其构建方法研究是急需开展的重要工作。本文以中医临床病历的命名实体抽取为应用目标,根据其文本数据的特点,研制了多种批量标注方法,以辅助规模化的中医病历文本标注,支持大规模中医临床病历语料库的构建。在此基础上,设计研发了中医临床病历标注系统,具体工作包括以下三个方面:(1).针对面向命名实体抽取的大规模中医临床病历库的构建问题,实现了结构化病历数据、条件随机场(Conditional Random Fields, CRFs)和Bootstrapping等三种自动化批量语料标注方法,其中首次尝试使用基于Bootstrapp ing的混合命名实体识别方法。并且在使用2,500个标注训练集实验的评估中,结构化电子病历和Bootstrapping的F1值分别为76.46%和53.8%,而CRFs的F1值则达到了98%以上,并且基于Bootstrapping的混合方法也达到87%。实验结果表明,这三种方法能够完成文本病历(以主诉为示范)的批量标注,从而为构建大规模中医语料库提供基础性方法。(2).初步研制了中医临床病历命名实体批量标注系统。该系统实现了以上三种批量标注方法,并支持病历文本数据的导入、批量标注和人工审核等主要功能,同时,实现了标注后语料的标准化格式(以XML的规范行业格式)导出处理。并利用该系统导入32,411个诊次的中医病历文本共351,963份,实现了3,550中医临床病历(主诉)的批量标注和初步审核,形成了初步的语料数据库,包括诊断、文本病历、基本信息等病历内容。(3).针对命名实体抽取的机器学习方法如CRFs性能与样本相似性结构之间的关系问题,通过计算病历文本之间的字符编辑距离,研究了CRFs标注性能与样本集相似结构的关系。实验结果表明,在开放式测试中,CRFs的标注性能(以F1值表达)与测试样本和训练样本之间的最小编辑距离成反比,测试样本集与训练集的平均最小编辑距离增大,则CRFs的测试性能逐渐降低。最差的CRFs F1值在最小编辑距离处于0.9时接近68%。由此可见,构建一个具有领域代表性的语料库样本集是提高自动标注性能的关键问题之