基于模式匹配的非结构化病理报告的信息抽取方法

来源 :东华大学 | 被引量 : 5次 | 上传用户:skybey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的快速发展,国内各大医院的信息化建设取得长足进步。同时,也为医院积累了丰富的非结构化临床文档数据。其中,病理报告就是一类非常重要的非结构化临床文档,其主要内容是由病理科医生采用自然语言记录的文本格式数据,其内容包括病人基本信息、肉眼可见标本信息、镜下可见标本信息等。传统对病理报告的处理方法主要是依赖于主治医生凭借其经验对病理报告进行人工处理,其实质就是通过人工干预对病理报告数据进行结构化处理。但是,在当前大数据背景下,呈几何级数增长的病理报告数据使得人工结构化病理文本数据面临巨大困难,不仅耗时耗力,且正确率不能保证。本文结合病理文本的结构特点和病理报告的书写规范,借助规则提取、模式匹配、泛化等技术手段,设计并实现了一个完整的病理文本数据的结构化处理系统,以支持病理文本数据的结构化信息抽取。本文的具体内容主要包括:1)本文首先介绍了病理报告结构化处理相关技术,包括中文分词技术、信息抽取方法、模式匹配算法以及逆向最短编辑距离泛化方法等。2)分析了病理文本数据的结构特点,建立了一个病理样本名词库,提出一种基于规则的标本名提取算法,通过词库、词性以及字词在文本数据中的位置等信息综合筛选出病理文本的标本名。3)通过人工干预的学习方式抽取病理样本信息建立初始模式库。在此基础上,结合病理报告的文本结构特征,通过自定义的模式匹配算法,最终得出病理样本模式。4)根据逆向最短编辑距离泛化方法,提出基于正向最短编辑距离的模式泛化方法,最终得到通用性较强的抽取模式。5)对新录入的病理文本数据,套用现有模式抽取信息,达到即时结构化的目的。本文采用了真实数据进行测试,结果表明本系统在保证召回率92%的基础上正确率达到88%,病理报告的结构化结果能够满足预期要求。因此,该系统的实现不仅可以辅助医生提高诊断效率,而且能够为将来疾病的病理诊断提供数据支持。
其他文献
随着现代互联网和计算机技术的不断提升,人们对于网络的使用度也在随之提升,而这也使得移动网络用户端成为了现代人的新宠。这其中,微博、微信等社交软件的流行速度和覆盖范
学生在同一阶段中通常由于智力水平、认知能力等方面的差异而表现出不同的学习能力,学生们都各有自身的能力优势与劣势,这在学习的过程中也会逐渐的呈现出来,因此在教学中教
卡梅伦较早的建立了隐喻的应用框架,结合卡梅伦的研究成果,庞继贤和丁展平建立符合应用语言学自身要求的理论框架,而王寅把隐喻在外语教学中的应用分为三个层面来研究,孙厌舒
苹果再植病害是苹果产区的一种重要的土传病害,严重威胁到我国苹果产业的健康发展。本研究通过室内对峙试验和盆栽试验,研究了木美土里生物菌肥对苹果再植病害的防治效果。室
<正>"特别学生"的教育秘籍,在于找到他们的"特别"之处。一年级的小宸(化名),体育课上经常迟到、说脏话、好哭……自我约束能力较差,执教教师不断变换方法去改变他,虽然耗费了
期刊
数学思维方法是数学思维能力的具体表现形式。引导学生运用数学思想方法分析和解决数学问题,有助于培养学生解题的灵活性、变通性以及创造性,发展学生的数学思维能力。
随着网络技术的发展,电力行业和企业产生了大量的非结构化数据,包括文本、视频音频、图片等不同格式文件,通过挖掘有价值的数据,为企业领导层研究企业发展方向、发现存在的问
随着我国国民经济的蓬勃发展,作为交通运输网络骨架的高速公路对经济发展和社会进步起着日益重要作用。高速公路服务区作为高速公路的重要组成部分,为高速公路使用者提供餐饮
国际经济发展的经验表明,发达的服务业是一个国家和地区现代化的集中体现和重要标志。服务业已成为国民经济中一大产业,它是推动经济增长和可持续发展的重要动力之一,服务经济时