汉字识别关键算法研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:Sunmin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字和书法是中国传统文化重要组成部分,构成丰富多彩的中国历史与文化。用户在浏览欣赏汉字书籍时,特别是在浏览欣赏有诸多繁体字的古代书籍的时候,会遇到很多生疏不认识的汉字,给用户欣赏作品带来了障碍。如果有工具能够帮助用户识别对应的汉字并给出该汉字的读音等相关信息,将给用户阅读书籍带来很大帮助和便利。针对上述问题,本文首先提出了一种基于GIST特征、SIFT特征和SSC(相似性敏感编码)的汉字识别算法。对于汉字图像的特征表达,目前最广泛使用的全局特征和局部特征分别是GIST特征和SIFT特征,本文使用GIST特征和SIFT特征相结合的形式以提高识别的准确率。首先,通过爬虫技术搜集目前所有的汉字,建立汉字库。然后利用图像切割技术获取每个汉字的图像,并提取特征建立汉字图像特征库。由于特征库存储空间较大,本文通过对SIFT特征过滤和SSC算法,对特征库进行压缩,减少特征库存储。此外,为了提高识别的时间效率,本文采用了高维空间索引算法,对比实验选取合适的索引算法以减少识别过程中时间消耗,增强识别算法的拓展性。相对于汉字识别,书法字形式的多样性使得书法字识别更加困难。最后,本文尝试将深度学习与传统识别方法相结合的方法进行书法字图像的识别。从书法的风格多样性的角度出发,利用深度卷积神经网络对书法字图像进行风格上的分类,然后通过传统的分类算法识别该书法字图像,得到其对应的汉字。通过实验对比,本文提出的书法字识别算法更高效。最后,本文从图像的特征提取、特征匹配和系统架构三个层面出发,在Windows和Android平台下设计实现了基于GIST特征、SIFT特征SSC压缩算法的汉字识别应用,能够方便用户识别印刷体简繁汉字。
其他文献
虚拟现实技术,是20世纪末兴起的一门综合性的信息技术。它融合了计算机图形学、多媒体技术、人工智能、传感器、网络等多个信息技术的分支,为我们模拟现实世界的自然景观提供了
在心电信号采集过程中存在工频干扰、运动伪迹、肌电噪声和基线漂移等,因此,为了提高诊断心血管疾病的准确性,对心电信号进行去噪研究具有非常重要的临床价值和现实意义。  
二分网络是复杂网络的一种重要的表现形式。网络中的社团定义为内部连接紧密对外连接稀疏的节点集合,发现网络中的社团结构,对于了解网络结构和分析网络特性具有重要意义。二分
本文介绍了一种新的四元数傅立叶变换(即四元数S变换)用于分析彩色图像。QS实质上是一个窗口化(局部化)的四元数傅立叶变换,该变换利用了一个圆形对称的高斯窗保证了变换的旋
随着三维数据采集技术、计算机硬件以及三维造型软件的发展,出现了大量的三维数字几何模型,并在影视制作、网络游戏、计算机动画、工业设计、科学计算和文物保护等领域得到了
软件形式化开发是大型软件开发的主要手段,能够在软件设计初期最大限度的降低错误率,节省开发时间,便于开发人员间的交流,同时还可以提高软件的可信度。形式化方法是在严格的数学
在当前社会,推荐系统已经取得了广泛的应用,从小型社区到大型电子商务网站,推荐系统无疑在扮演着十分重要的角色。如何计算用户对一个物品的感兴趣程度在推荐系统领域是一个
随着互联网用户数量的急剧增加和电子商务的迅猛发展,网络上涌现出许多B2B、B2C网站(如京东商城、淘宝、当当网等)。这些网站有一个共同的特点,就是在产品销售的同时,还为消费者提
近年来随着多媒体技术的发展,计算机动画、虚拟现实技术、计算机仿真在计算机图形学领域越来越受道人们深刻的关注,成为图形学研究的热点。山,水,云,烟雾等自然景物的模拟被
目前,越来越多的实时应用需求推动着实时系统的发展。同时计算机的迅猛发展和硬件价格的降低使得多处理器实时系统得到广泛的应用。多处理器系统的调度问题也受到更多的关注