论文部分内容阅读
随着互联网信息技术的快速发展,国内各大医院的信息化建设取得长足进步。同时,也为医院积累了丰富的非结构化临床文档数据。其中,病理报告就是一类非常重要的非结构化临床文档,其主要内容是由病理科医生采用自然语言记录的文本格式数据,其内容包括病人基本信息、肉眼可见标本信息、镜下可见标本信息等。传统对病理报告的处理方法主要是依赖于主治医生凭借其经验对病理报告进行人工处理,其实质就是通过人工干预对病理报告数据进行结构化处理。但是,在当前大数据背景下,呈几何级数增长的病理报告数据使得人工结构化病理文本数据面临巨大困难,不仅耗时耗力,且正确率不能保证。本文结合病理文本的结构特点和病理报告的书写规范,借助规则提取、模式匹配、泛化等技术手段,设计并实现了一个完整的病理文本数据的结构化处理系统,以支持病理文本数据的结构化信息抽取。本文的具体内容主要包括:1)本文首先介绍了病理报告结构化处理相关技术,包括中文分词技术、信息抽取方法、模式匹配算法以及逆向最短编辑距离泛化方法等。2)分析了病理文本数据的结构特点,建立了一个病理样本名词库,提出一种基于规则的标本名提取算法,通过词库、词性以及字词在文本数据中的位置等信息综合筛选出病理文本的标本名。3)通过人工干预的学习方式抽取病理样本信息建立初始模式库。在此基础上,结合病理报告的文本结构特征,通过自定义的模式匹配算法,最终得出病理样本模式。4)根据逆向最短编辑距离泛化方法,提出基于正向最短编辑距离的模式泛化方法,最终得到通用性较强的抽取模式。5)对新录入的病理文本数据,套用现有模式抽取信息,达到即时结构化的目的。本文采用了真实数据进行测试,结果表明本系统在保证召回率92%的基础上正确率达到88%,病理报告的结构化结果能够满足预期要求。因此,该系统的实现不仅可以辅助医生提高诊断效率,而且能够为将来疾病的病理诊断提供数据支持。