基于深度学习的病历文本检测与识别

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:jianglihongnj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来多家医院的病历管理方式都在向电子化病历管理系统的方向发展,但很大一部分医院依然储存了大量旧的病历档案,这些病历文件多以打印文档、手写表单、扫描页面等形式存储,以供记录患者信息和科学研究之用。因此,研究自动化的病历处理方法在医疗领域具有重要意义。由于医学相关扫描文档页面十分复杂,就文本来说包括手写文本和机器打印两种文本,此外还存在对比度不足、字迹模糊等问题,使得病历文件自动化分析与处理非常具有挑战性。本文提出了一个通用的病历文本识别模型,可以同时识别扫描文件中手写和机器打印的文本,省去了对文本进行分类的步骤。本文的主要工作有:(1)构建了一个病历图像数据集(Medical History Database,MHDB),该数据集共有11815张病历图像。病历图像包括从北京协和医院、中国人民解放军总医院、青岛市市立医院、北京大学人民医院等11家三甲医院获取的手术记录2541张、病程记录2458张、病理图像诊断报告3462张、化验报告单4354张,共计11815张病历图像。针对手写体字符和印刷体字符位置分别进行标注,得到ground truth。从病历图像中选取20种不同光照条件下的纸张纹理作为背景。收集印刷体常用字体14种和不同书写风格的汉字手写体字符260种。用图像处理技术将印刷体字符和手写体字符分别粘贴在纸张纹理背景上,并加入透视、扭曲、模糊等变换,制成包含3000000张文本行图像的文本识别数据集。(2)提出了一个文本检测模型TLDC(Text Line Detection and Classification)。TLDC模型在进行文本检测的同时,可以对手写体和印刷体文本进行分类,避免了繁冗的先检测坐标后区分类型的步骤。同时,加入了对文本行包围框的高度矫正,很好地避免了文本行包围框误包含其它文本行的情况。针对病历图像中存在的对比度不足、字迹模糊等问题,在图像预处理阶段进行了病历图像对比度增强。对TLDC与其它几种文本行的检测效果在准确率、召回率、F-measure三个维度上进行实验对比,最终的实验结果证实TLDC在MHDB数据集上效果更好。(3)提出了一个基于Mixup数据增强的文本识别模型METR(Mixup Enhances Text Recognition)。该模型使用Densenet作为特征提取器,并且将BLSTM(Bidirectional Long Short-Term Memory)纳入文本识别模型中。利用CTC(Connectionist Temporal Classification)对标签与文本行图像进行自动对齐,实现了文本行的序列化识别,通过对模型输出的预测序列到最终标签序列的映射获取了最终的文本序列。这样的设计绕过了对文本行图像的字符级图像分割步骤,从而避免了由于字符分割中出现的错误向后积累导致的整体准确率下降。又通过在不同的位置加入Manifold Mixup策略缓解了手写体文本识别中训练数据不足的问题,提升了最终的识别准确率。
其他文献
对于柴油机而言,采用较早的向缸内喷射燃油技术,能达到促进燃油和空气混合,改善缸内燃烧,降低污染物排放目的。但由于在较早的喷射正时条件下将燃油喷射到低压低温燃烧室中,燃油撞击燃烧室壁面成为普遍现象。导致大部分燃油铺展在燃烧室凹坑侧壁,油膜面积及厚度增大。导致缸内出现壁面淬熄效应,会在气缸壁面形成厚约0.1-0.2mm左右的不燃烧或不完全燃烧的淬熄层,增加直喷发动机的污染物排放。所以需要对气道-缸内气
近些年来,随着海洋遥感、海洋环境中目标的探测与识别技术的发展,海面散射及其与目标的复合电磁散射越来越受到国内外学者的重视。本论文主要围绕含卷浪海面电磁散射、含卷浪海面与目标复合电磁散射两个方面展开研究。具体采用迭代物理光学法(IPO)求解了一维、二维含卷浪海面的电磁散射;基于多路径散射思想和等效原理,运用物理光学法(PO)-迭代物理光学法(IPO)结合的方法计算了一维含卷浪海面与二维目标、二维含卷
金针菇(Flammulina filiformis)富含赖氨酸,而赖氨酸对儿童的身高和智力发育有良好的作用,因此金针菇被誉为“增智菇”。基于金针菇全基因组测序结果,筛选到金针菇赖氨酸生物合成途径中的关键基因,确定赖氨酸是通过α-氨基己二酸途径(α-Aminoadipate pathway,AAA途径)合成的。以金针菇AAA途径为基础,以途径中的关键基因为核心,研究其分子机理和调控机制有助于开发金针
背景和目的:肝脏作为人体最重要的代谢器官,承担着机体代谢、解毒、蛋白合成、胆汁分泌和免疫调节等多种关键的生理功能。肝脏的损伤直接影响人体健康,诱发多种疾病发生。病毒、药物和酒精等外界因素会引起肝细胞的大量坏死,导致肝功能代谢障碍或失代偿。临床上,针对症状较轻的患者,主要运用一些具有保肝作用的药物对肝脏损伤进行保守性治疗,而重症终末期患者只有依靠肝脏移植手术进行治疗。但是,药物治疗存在一定的局限性,
医疗卫生事业是关系广大人民群众切身根本利益的事业,目前随着经济的发展,医疗的进步,人民生活水平的提高,人民对医疗服务的要求也越来越高,越来越多的人都涌向大医院进行看病,造成目前大医院看病越来越难,挂号也越来越难,而社区医院卫生院等就诊人员越来越少。医疗卫生事业是公共管理中的重要组成部分之一,其领域的改革成为越来越多学者关注的焦点。针对现实情况,国家实行全面医联体建设。研究主要目的是探索T市从201
深度神经网络已经被广泛应用在计算机视觉、自然语言处理、语音识别等领域。随着深度神经网络的层数越来越深,参数规模也越来越大,训练与运行深度神经网络的时间也越来越长,对机器设备的要求也越来越高,深度神经网络在手机等移动设备上的部署和运行也受到约束,因此减小深度神经网络的计算量和存储空间显得尤为重要。深度神经网络剪枝是一种通过剪枝减少网络参数冗余缩小网络规模的方法。本文从深度神经网络中的权重值出发,分析
抗生素类的抗氧化剂、促生长剂广泛地应用于家禽饲养中,所引发的耐药性和药物残留问题日益严重,寻找替代抗生素的饲料添加剂非常必要。油橄榄叶富含多酚、黄酮、糖类、有机酸
当前绝缘栅双极型晶体管(IGBT)由于性能优越,被广泛应用与新能源汽车、清洁能源发电、工业加热以及家用电器变频等领域。然而IGBT常常工作在高压、大电流以及高频率条件下,功率波动剧烈,IGBT要承受较高的不平衡热应力。从而产生键合线脱落或焊料层疲劳,最终导致器件因老化而失效。为提高其可靠性,常要研究其参数和老化的关系。传统测量老化参数的方法,存在测量精度不高、测量速度慢、不具备自动计算功能等缺点。
近年来,随着无人机技术和传感器技术的飞速发展,地理数据获取高效、成本低廉、建模快速。倾斜摄影测量成为数字城市建设的一种重要技术。然而倾斜摄影测量在利用影像生成的点云数据构建表面模型过程中,存在表示建筑物结构轮廓的棱、角等尖锐特征丢失的问题,重建的表面模型不能全面如实的反映建筑物原貌。本文利用倾斜摄影过程中获取的影像数据生成增强型三维点云模型数据,利用增强型三维点云模型综合空间几何信息和多角度的影像
淀粉是天然多糖,是地球上来源最为广泛的高分子化合物之一,属天然绿色生物质化工资源。淀粉通过酯化变性,既保留了淀粉骨架的亲水性,又增加了亲油性。离子液体是近十多年来发