旋转方向无关的无约束手写中文词组识别

被引量 : 0次 | 上传用户:leneyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文致力于研究旋转方向无关的无约束中文手写词组识别技术,这种技术能让用户在没有字符框约束的书写区域内自然、流畅地以任意角度书写汉字词组。然而,这项研究面临着多项技术难题,包括:书写词组的旋转方向矫正问题,词组字符间笔画的粘连与重叠所带来的切分问题,汉字结构复杂与书写风格多变的问题,以及汉字词组词汇量庞大等问题。本文围绕着这些难点对中文手写词组的识别技术展开了一系列研究,主要工作包括:1.针对手写词组的倾斜矫正,提出了一种基于重心平衡的中文手写词组方向检测方法。实验结果表明,该方法能较好地将用户以任意倾斜角度(0°~ 360°)书写的中文词组矫正到水平位置,从而使得本文提出的手写词组识别方法成为一种旋转方向无关的手写词组识别方法。2.用户在快速书写的过程中,字与字之间容易产生连笔的现象,而且用户如果书写的词组字间距很小,字与字之间也容易产生笔画粘连甚至部分笔画重叠等问题,针对这些问题,本文提出了一种基于笔段提取与启发式笔段拆分的过切分方法。实验结果表明,该方法能较好地将连笔、粘连笔画或部分重叠笔画切分开来,从而为后面的切分组合路径搜索打好了基础。3.对手写单字识别进行了深入研究,提出两种不同的识别方案,一种基于笔画矢量方向特征和动态时间规整(DTW)技术的联机汉字识别方法,另一种则基于两级LDA粗分类器和一级MQDF细分类器的多级脱机汉字识别方法,并将两种识别方案进行了集成。实验结果表明,联机与脱机识别技术有着较好的互补性,两者的集成大幅提高了手写汉字的识别效果。另外,针对汉字书写可能出现不同的书写风格,本文也对手写汉字的多模板建模进行了研究,为了提高多模板的代表性,提出一种基于简化引力模型的聚类方法,实验结果表明,该聚类方法能生成比传统K-Means聚类更优的多模板,即使通过最小分类错误率(MCE)训练方法对多模板进行训练调整,调整后的模板也要优于经过同样MCE训练调整后的K-Means聚类模板。4.针对手写词组的字符切分,提出一种基于识别的字符切分验证模型,并同时用到词典的信息对切分结果进行进一步确认,由于对切分出来的部分进行单字识别输出的是识别候选字序列,因此在切分路径的搜索过程中,只要每个切分部分的正确的结果位于该部分的识别候选字序列内,即使不是第一识别候选,也能在后续的基于词典信息的切分验证模型中将其找出组成正确的词组输出。另外,针对中文词组词汇量大的问题,本文采用了一种哈希词典技术,使词典搜索验证的时间复杂度为常数O(1)。实验结果表明,通过这种验证模型进行词组识别,由于利用了词组中单字间的上下文信息,识别率由单字识别的84.58%提高到91.67%,而错误率则由15.42%下降到5.23%,大幅下降了66.9%,从而显示出本文提出的中文手写词组识别方法的有效性,5.传统的高准确率MQDF分类器由于其参数存储量巨大,无法被应用于存储空间受限的手持设备如手机或掌上电脑上,为了使其能得到应用,让人们体验到这种技术带来的识别率的大幅提升,本文研究提出了一种基于子空间共享的矢量量化压缩技术,该技术能以牺牲较小的识别性能来换取大幅降低的识别引擎字典存储空间。本文将其应用在传统的LDA与MQDF分类器上,使得整体分类器字典的容量从76.4MB降到了2.06MB,大幅压缩了97.3%,而识别率则仅仅下降0.88%,仍然维持在97%以上的水平。通过这种技术,使得传统的高识别率MQDF分类器被移植到手机等手持设备上成为可能。总之,多字词的手写识别由于包含了上下文信息,只要切分问题能得以很好的解决,则对其的识别效果将优于单字的手写识别,而且多字词的连续输入相对于单个字符逐个逐框地输入更显得自然和人性化,这些特点都表明了多字词连续手写识别技术将是汉字手写识别技术未来的发展方向。
其他文献
近年来,社会主义新农村建设成为社会关注的焦点,成为落实科学发展观、构建社会主义和谐社会的重要内容。为了建设社会主义新农村,我国循序渐进地提出了推进农村社区建设的思
卢照邻,“初唐四杰”之一,是中国古代文学史上极具典型的悲剧文人。作为“四杰”中遭际、命运最悲惨的一员,他的生平、思想和创作均打上了鲜明的个人烙印。然而受“初唐四杰
山西地区(以晋中为代表)在唐代政治版图及民族地理格局中占有特殊而重要的地位。北方游牧民族的南迁,使得唐代雁北地区呈现出典型的塞外风貌,而作为北都所在及北方最重要的军
公司管理,组织结构和资本结构之间的相互关系,是金融财政学中的一种较低理解范围的知识。尽管之前关于它们的研究在一些发达国家已经完成,但在世界各地的发展中国家、新兴的
<正>目的:研究后发性白内障患者Nd-YAG激光后囊切开术后人工晶状体(IOL)的倾斜和偏心变化及高阶像差变化方法:前瞻性研究。选取在我院行Nd-YAG激光后囊切开术的后发性白内障
会议
媒介批评自20世纪90年代从西方引进到我国大陆以后,便取得了不俗的发展。在其时间不长的发展过程中,媒介批评开始了理论“本土化”和实践“中国化”的不断探索。本文从我国媒
随着多媒体和虚拟现实的发展,3D模型广泛用于对象识别、工业设计、视频游戏、动画制作、数字文物档案建立、建筑物原貌恢复等方面,高效实时的三维模型重构方法日益成为各行业
中国人全面参与证券市场的发展才十多年时间,证券经纪业务是我国证券公司最为基础、最根本的业务,随着交易佣金下调、印花税率的变化以及加入WTO国外同行准入的压力,以“客户
本文针对中师教材《几何》中关于直线和平面垂直的性质定理的证明,指出证明中存在的一些弊端,并结合本人教学经验提出几点解决措施。
新一代处理器对为其供电的电源系统指标提出了越来越高的要求。由于开关电源的数字控制具有良好的灵活性、可扩展性、易于实现更优秀的电源管理方案等优点,因此得到了越来越