联机草书英文单词识别技术的研究与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:chaoyuemengxiang2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字识别是模式识别领域一个重要的研究热点。在充分考察了目前英文单词识别技术发展现状的基础上,本文着眼于联机草书英文单词识别这一难点问题,进行了深入的研究。采用“先切分,后识别”的方法,即先将每个英文单词切分成英文字母,然后进行英文字母识别,最后将英文字母识别结果组合成英文单词,给出Top10个候选结果。   本文提出了一种联机草书英文单词切分的方法。该方法把单词采样点序列的极小值点作为候选切分点,然后利用极值点与笔划垂直方向投影之间的关系编辑极小值点,更新候选切分点作为最终切分点。同时,考虑到有些特殊字母书写顺序的问题,提出了将相关笔划坐标序列进行合并,并且标记出特定笔划坐标序列,在采样点子序列组合中提高了算法的效率。由于英文单词切分存在着过分割的现象,本文提出了建立组合树的方法将相邻的采样点子序列进行组合然后再送入英文字母识别引擎进行识别。字母识别引擎采用反向神经网络的方法设计。每个笔划段,给出得分最高的前五个字母识别候选结果。将这些字母按组合树路径排序,采取边组合边查字典的方式,穷举出所有可能的单词结果。每步检索词典,判断是否为“字典单词”,如果不是则停止该条组合路径的识别,起到组合树剪枝的作用。本文的英文字典采用Trie树结构,搜索单词的速度比较快。对于给出的单词候选结果综合可信度分数、词频分数等因素给出单词评分原则,选择出Top10单词作为最终结果。实验证明,本文的方法是可行、有效的。
其他文献
在当前互联网应用激增的背景下,基于Web的应用系统软件在社会生活的各个领域都得到了广泛的应用。政府和企业为提高工作效率、节省工作成本,将信息化建设作为重点工作内容,投入
网格作为一种新的计算能力,它可以对分布的、异构的资源进行共享及选择,并且能够解决大规模的计算问题,比如科学和商业上的,因此被越来越多的人所重视。网格技术是近几年新兴
随着网络存储系统中的信息量的爆炸式增长,系统的存储容量需求日益提高。而随着海量存储系统中的磁盘数目越来越多,由磁盘故障所引起的数据丢失的可能性也越来越大,系统的可靠性
目前DB2数据库技术作为信息系统的核心技术得到了不断的发展和完善。随着企业内的数据总量正在呈指数级增长,数据库系统的性能逐渐遇到了瓶颈,如何在有限的资源条件下提高数据
随着计算机和通信技术的高速发展,计算机网络在人们的工作和生活领域正在迅速普及,许多企业和组织为了充分利用和共享网络中的资源,都将自己的内部网络与互联网连接。但随之
医疗数据因其自身具有独特的异构性、海量性、复杂性及安全性等特点,在其采集与处理的过程中会产生许多不完整、不一致的“脏数据”,从而影响了对这些数据的分析及利用。目前
HDFS是Hadoop的旗舰级分布式文件系统,是云存储的基础架构。HDFS采用了完全复制的存储方案,该存储方案下的数据存储占用较多的存储空间,数据块-存储节点映射信息占用较多的存储
随着信息技术的不断增长,海量数据信息的存储越来越依赖云存储系统。作为云存储系统的典型代表Hdfs,需要将每一个数据块的副本放置在多个节点上。副本放置策略的好坏,直接影响着
校友是高等学校拥有的具有巨大潜力的资源,是一个信息丰富、知识密集、社会能力强的群体,不但是高等院校的形象资源,也是高等院校的财富资源,对高等学校的发展起着举足轻重的作用
无线传感器网络(Wireless Sensor Networks, WSNs)是由大量的廉价传感器节点通过自组织方式构建的网络,其在军事、环境监测、医疗护理、智能居家、灾后救援等场合有着广泛的