联机手写中文词组识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:woshizhaozhiqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联机手写中文词组识别技术比起单汉字手写识别技术能给用户提供一种更自然、更便捷的手写输入方式。然而,中文手写词组识别技术上面临着较多难题。为了实现这项技术的应用,本文围绕这些难题进行了研究。主要研究包括:   ⑴针对联机中文手写数据库的匮乏,本文规划设计采集了包含中文词组的多样式的联机手写数据库——SCUT-COUCH。它是第一款公开的完备的多样式的中文联机手写数据库,目前包括了10个子集(分别是COUCH-Word8888、COUCH-Word5000、COUCH-GB1、COUCH-GB2、COUCH-TradGB1、COUCH-Big5、COUCH-Pinyin、COUCH-Letter、COUCH-Digit以及COUCH-Symbol)。SCUT-COUCH是第一款公开的涵盖了高达48,385个词组类别的中文手写数据库,而且还是第一款公开的涵盖2,010个汉语拼音类别的手写数据库。这款数据库的总类别数高达64,127,而采集的总样本数达到3,612,404。另外,我们还对采集到的部分词组数据库进行了手工切分标注;极大方便了联机手写词组切分的研究。这样一款完备的数据库不论对手写识别系统的训练和测试都是必须的,并将给众多方面的研究带来便利。   ⑵针对手写词组的字符切分进行研究。提出介绍了一种新颖词组切分方法,该方法综合了“拐点检测的笔段提取”、“连笔笔段拆分”以及“基于笔画顺序和空间尺度信息的笔段整合”等方法。对无约束手写中文词组使用上述方法进行切分,能得到较高的切分准确率(96.92%)和较好的切分有效率(48.90%)。为后续基于切分候选点进行最优切分路径的搜索工作大大减少了运算量。   ⑶针对基于切分策略的词组识别率低的问题,使用基于词典信息对字符的过切分进行路径的筛选,实验表明,这一方法大大提高了整词的识别正确率,本文在100套含8,888个中文词组的SCUT-COUCH-Word8888数据下进行实验,获得85.73%的词组识别率。   ⑷使用单字符识别分类器并基于词组信息对多字词的手写识别,只要保证单字符分类器的多个候选识别率较高,并且较好解决切分问题,则能得到较高的识别率,识别效果要远远好于仅使用单字符识别分类器对每个字符单独进行的识别。
其他文献
本文通过对荣华二采区10
期刊
紫菜因其具有高营养和高附加值而受到人们的广泛喜爱。在我国一些沿海省份,人工栽培紫菜已成为一项重要的产业,紫菜的育种也因此倍受重视。本实验运用化学诱变剂MNNG(N-甲基-
随着无线通信需求不断发展,宽带无线信道的研究越来越受重视,特别是宽带地空信道。地空信道是一种典型的变参信道,多径衰落、多径时延、衰落速率、波达方向、相干时间等参数
无线通信要解决的基本问题是使资源利用更合理、网络覆盖范围更广、系统容量更大、带宽利用率更高。MIMO(Multiple Input Multiple Output)多输入多输出技术和协同分集技术可
近年来,随着网络的融合和发展,人们逐渐进入了全网络时代,网络为我们的家庭带来了无数新鲜的体验和丰富的资源。越来越多的电子产品如数字电视、手机、个人掌上电脑、台式机等进
流媒体被认为是推动下一代互联网发展的核心动力,它的特点是边下载边播放。作为当今网络世界最热门的技术之一,流媒体技术的应用处于高速增长阶段。3G时代的到来,为流媒体技术在
数字波束形成技术是阵列信号处理的重要内容之一,已广泛应用于雷达系统、通信系统、声纳系统、天文和医学等诸多领域中。数字波束形成技术的主要优点是相移和阵列加权通过数
随着家庭网络技术的发展,便利和成本低的家庭无线网络成为了研究的热点。本课题研究的家庭无线网关技术就是数字家庭无线网络实现的核心。本文针对现今家庭中电器用具的特点,提
数控系统是大机械的“智慧脑”,是数控机床实现控制功能的核心部分。我国由于对数控系统的研究起步较晚,在技术上还落后于国外一到两代。目前,我国每年都会从数控产业高端市场,例
本部分研究以菠菜和水稻为材料,比较系统的研究了高温对类囊体膜、PSⅡ颗粒、PSⅡ外周捕光天线LHCⅡ、PSⅡ核心复合物和PSⅡ反应中心等不同层次膜蛋白结构与功能的影响,以探讨
学位