中文医疗化验单图像的信息抽取与识别算法研究

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:hfxwh6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术已经渗入到各行各业并为社会带来了很多便利。但仍然存在很多尚未被挖掘且有着广大需求的领域,例如医疗行业中患者留存的大量的纸质化验单作为重要的医疗大数据的来源之一,并没有被利用起来。然而对患者来说,仍被广泛使用的化验单难以存储和管理。相比之下,电子的医疗化验单不仅能够解决以上问题,还能够促进远程医疗和医疗大数据的发展。因此,将传统的纸质医疗化验单电子化是实现医疗大数据至关重要的一步。值得提及的是,由于中文化验单结构复杂、字符种类繁多,包含中文、英文、希腊字母、数学符号等,导致中文化验单图像的识别是一个富有挑战的任务。针对以上问题,本论文首先提出了一套完整的解决方案——基于深度学习的化验单信息抽取方法,包括化验单中的文字检测与识别。基于深度学习的文字检测算法避免了传统文字检测算法繁琐的步骤,检测效率高。不仅如此,基于深度学习的检测模型还表现出较高的准确率;考虑到单字识别模型的标注成本过高,我们基于Tesseract定制了适用于化验单场景的识别模块。Tesseract可作为预标注工具并支持多语言的字符识别,它的训练速度相比神经网络模型较快。通过分析单字识别模型的实验结果,我们发现基于单字的识别模型依赖字符分割的结果,对形近字的识别效果不佳,而且对图像质量(图像模糊、文字倾斜等)比较敏感。此外,目前比较主流的文字识别模型都是为单一尺度的字符设计的,而且主要用于英文、数字的识别。因此,本文对字符特征的尺度问题做了深入的分析并提出了基于多尺度特征的序列识别模型,该模型极大地减少了形近字的识别错误。此外,本文提出的基于多尺度特征的序列识别模型将化验单文本块当作序列进行处理,省去了字符分割的步骤,整个序列的上下文信息也起到了辅助识别的作用。为了证明我们提出的模型的有效性,我们在合成的数据集上进行训练,在我们收集的真实化验单上进行评测,实验结果表明,我们的模型的识别效果不仅优于单字的识别模型,还优于目前主流的识别算法。
其他文献
【正】 曹玉林(以下简称曹):相对而言,在当代新一轮中国画体格转型的过程中,人物画的成绩是最大的,其转型也较为成功。它不仅已远远超越了上个世纪50年代至70年代在意识形态
随着计算机数据处理能力的加快和人工智能技术的成熟,医生越来越多地使用数字图像来进行辅助诊断治疗,其中X光检查是一种有效筛查疾病的传统方法,它在诊断治疗的不同阶段使用,包括骨折诊断治疗、评价骨骼成熟度、骨密度测量和手术前的治疗计划等。X线片中骨组织的分割是计算机辅助预后、外科手术和治疗的主要步骤,但是因为医学成像技术的限制和成像物体的特殊性,以及医学图像固有的特点,如灰度不均匀、影像相互重叠、噪声大
目的研究FHIT、Bcl-2在胃癌组织中的表达情况及两者之间的关系,并分析幽门螺杆菌感染(H.pylori)对FHIT、Bcl-2在胃癌组织中的表达影响,讨论三者之间致癌的可能机理。方法采用免
本文主要试图讨论电磁场对红麻种子活力的影响,使用的电磁场有:静电场,静磁场和电子顺磁共振(EPR)等。实验发现:当用静电场处理种子,并与对照组相比较,种子活力指数增加10.8~4
鬼神是中国本土文化中不可回避的重要语素。中国最早的绘画中便出现了与鬼神相关的形象。随着朝代的更迭,至唐宋时期,鬼神题材绘画已经成为了中国古代绘画的重要组成部分,且发展到鼎盛阶段。这一时期的鬼神题材绘画中鬼神形象的塑造也达到了十分成熟的境地。选择鬼神形象的塑造这一课题进行研究,主要目的是希望通过对唐宋时期鬼神题材绘画中表现的鬼神形象所涉及的相关绘画问题的探究,揭示古代画家是出于何种思考创作出鬼神绘画
介绍了一种采用一台PLC和两台变频器的电梯并联控制系统,阐述了该系统中的并联功能和硬件、软件的设计方法.提高了电梯运行的可靠性,舒适性和效率.
经济新常态下,产业融合发展是促进农村经济振兴的必然要求。基于2010—2016年样本数据,结合农村经济发展水平和产业融合度,运用改进的灰色关联分析法,研究江淮城市群产业融合
【正】张东,1968年生于广东信宜。1996年毕业于广州美术学院中国画系山水画专业研究生班,获硕士学位。中国美术家协会会员,广东青年画院副秘书长。
软装饰是室内设计工作中一个极为重要的内容,其目的是为了能够使用软件装饰品来营造出各种不同的视觉享受和观感方面的各种刺激,只有这样才能够让我们那些艺术层面的感染力以
<正> 神话故事、历史人物和文学作品乃至宗教题材,一直是中国绘画创作所依据的文本,绘画图本往往反映着深刻的社会价值观念。在绘画题材选择的过程中,既有先古时期遗存文本的