论文部分内容阅读
设计基于Tesseract引擎针对全血化验单内容的识别系统。利用混合边缘检测算子对图片进行边缘检测,排除背景噪声。通过透视变换、霍夫直线检测对图像进行倾斜校正,利用投影法切分不同类型字符识别区域,对切分的项目名称和结果利用二维OTSU (大津算法)法对相应的图像进行二值化。利用Tesseract引擎使用集束搜索算法和K-近邻算法(KNN)进行预识别,经过校正后,重新训练生成全血化验单识别字库,利用生成字库进行识别。经过实验,该系统识别率为96.4%。该系统的实现,弥补了市场空白,避免手动输入的繁琐,