真实场景下越南文字的检测与识别

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:hgy630
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字作为体现一个国家和民族文化的载体,其重要性不言而喻。通过使用计算机识别真实场景中的文字已经成为计算机视觉领域最重要的研究内容之一。然而现有的场景文字检测与识别算法大都针对于英文、中文等使用人数广泛的语言文字。越南文字作为一种声调语言表音文字,使用人数相对较少但具有代表性。与常见的拉丁文字不同,越南文字的书写中存在6种声调符号标记,使用不同的声调符号表达不同的语义信息,现有算法在检测与识别越南场景文字时还存在着各样的缺陷。因此,本文基于深度神经网络技术,针对越南场景文字的检测算法与识别算法展开了研究。本文提出的算法如下:一、针对越南文字中声调符号区域往往被检测算法忽视的问题,本文在实例分割网络Mask R-CNN的基础上,提出了区域扩展算法。通过模型重用并结合双路注意力机制,使模型可以迭代地检测越南文字中的声调字符区域。针对越南场景文字检测训练数据缺乏的问题,本文提出一种模型联合训练的训练方法,以增强模型在不同场景下提取文字的泛化能力。针对存在用常规非极大值抑制算法不能剔除重复文本检测框的问题,本文设计了一个针对文本区域的过滤模块有效地剔除了冗余检测框。通过对比实验和交叉验证实验证实了本文算法对检测越南场景文字的有效性。二、由于越南文字中存在声调符号,同一字母与不同声调符号的组合会导致字符类别之间差异较小,识别字典库与普通的英文文字相比体量更大,文字识别模型的设计难度也随着增加。对此,本文在CRNN场景文字识别模型的基础上,使用空间注意力机制以增强网络模型对书写差异较小的越南文字的识别能力。针对场景图像中的文本序列同时存在横向排列以及纵向排列的问题,本文设计了一个可以提取两路排列特征的网络结构,在不需要判断场景文字方向的前提下,准确的识别场景文字内容。通过与CRNN进行对比实验,本文提出的越南场景文字识别算法在训练速度,推理速度以及识别准确率上都具有优势。
其他文献
近年来,智能手机安全性的问题越来越受人们关注,用户识别认证在保证智能手机安全方面扮演着重要的角色。随着对便携式设备安全性要求的提高,针对智能手机已经提出了各种各样的用户身份认证技术,其中包括基于加速度计数据的身份认证。然而,基于加速度计数据采集的时间序列信号非常复杂,信号具有高度非平稳特性,信号的统计量特征随时间变化很大,因此给用户识别研究带来了挑战。在这项工作中,采用十个不同用户在步行、下楼和上
在现代军事和民事通信领域中,VHF/UHF频段车载天线应用愈加广泛,而传统的窄带天线已无法更好地适应日益复杂的电磁环境和通信需求。因此,车载天线的主要研究方向就是宽带与小型化。本文根据实际工程需要,利用多工器,设计一副单端口VHF/UHF频段宽带小型化天线。主要研究内容如下:1、VHF频段宽带天线的设计。为满足车载架设环境,该天线类型为鞭状天线。本文利用天线辐射体共用思想,设计一种单、偶极子辐射体
HDR(High Dynamic Range,HDR)图像从出现到走进大众的日常生活中,一直是显示领域的关注焦点。由于普通成像设备中光学采集模组进行实景拍摄时捕获到的动态范围远低于实景动态范围,在成像时难以将实景的光影轮廓完整显示出来。基于多曝光的高动态范围成像技术能够有效克服成像设备硬件的局限性,通过在实景中连续拍摄一组图像,利用加权融合的方式,使得图像能够记录下更高的动态范围。因此,本文对高动
图像分类技术在生产生活中有着广泛的应用。然而,在许多应用场景中,需要对外观十分相似的类别进行分类,传统的图像分类技术难以满足这一需求,因此细粒度图像分类就成了图像分类领域一个重要的研究方向。细粒度图像分类也有广泛的应用场景,比如自然保护区的生物识别、无人超市的商品识别、交通路口的车辆识别等,但是由于“类内差异大,类间差异小”等问题,细粒度图像分类仍然是一个具有挑战性的任务,尚无法满足实际应用的需求
黑客或恶意攻击者通过各种方法入侵网络,导致网络环境面临着大量具有针对性、隐蔽性和渗透性的潜在威胁,网络安全面临着严峻的挑战。入侵检测系统(Intrusion Detection System,IDS)作为安全防御系统被用来检测网络环境是否存在入侵行为,并针对各种入侵行为产生相应的报警数据,便于安全管理人员采取相应的防御措施,然而IDS在实际应用中会产生大量冗余、错误的报警,使得管理人员难以从中找到
视频中人体行为的自动识别是指从原始视频数据中自动识别出对应的人类动作。人体行为识别是进行视频语义理解、视频结构化描述的关键技术。相较于视频中的车辆的识别,人体行为由于其行为种类多,就需要更准确地识别。而且,在获取的视频中,由于存在着各种客观因素,如视频的画面抖动、复杂背景、视角变化等。对此,现有的人体视频行为识别算法对于以上这些问题的处理仍然受限。本文通过利用时空信息融合,分析视频中的关键人体行为
随着移动互联网的普及,以及在线教育的人数突破新高,越来越多的问题文本数据被上传至互联网中。网络中存在大量的未标注问题数据,对于用户的选择造成了困扰,用户很难从中分辨出问题的难度。为了使得用户能够更好地选择自己适合的问题难度,节省用户筛选问题的时间,帮助用户进行个性化学习,对于问题难度的预测变成一个亟待解决的问题。问题难度预测是教育数据挖掘领域中重要的问题之一。现有的问题难度预测模型基于专业人员对问
随着云计算与容器技术的高速发展和深度结合,给互联网行业带来了重要的技术革新,同时“智慧旅游”概念的提出,推动着传统旅游行业的进步与革新,随之诞生了大量的以“互联网+旅游”为背景的互联网产品和应用。本文研究基于模糊多属性决策,面向智慧旅游系统,主要的研究工作如下:(1)提出了一组基于q阶正交模糊数的Dombi幂分区Heronian平均算子。首先,介绍了基于Dombi T-范数和S-范数(DTT)的q
分组密码作为一种主流的加密手段,有着易于商业标准化、适用性强、密钥信息不需要同步、扩散性良好等优点,在各种安全设备中得到了广泛的应用。未受保护的密码算法在密码设备中运行时很容易遭受到侧信道的攻击,从而威胁到密码设备的安全性。如何提高现有侧信道攻击的效率和针对攻击做出相应的防护是目前国内外研究的热点和难点。本文基于国际主流密码算法AES和国密算法SM4的算法结构,研究相关功耗分析的优化方法;并研究了
深度学习算法在图像分类等许多应用场景中取得令人瞩目的成绩。但是,研究表明含有恶意扰动的对抗样本可以欺骗甚至操纵这些复杂神经网络模型,从而使得它们输出错误的预测结果。为了应对这种威胁,本文重点研究对抗训练和预处理防御这两种提高神经网络模型鲁棒性的方法。对抗训练,即使用对抗样本训练神经网络模型,是一种有效的防御措施。经过对抗训练的神经网络模型往往具有很强的抵御对抗样本攻击的能力,但是在训练过程中生成对