基于词素的日文分词方法及其在OCR系统中的应用

来源 :微计算机信息 | 被引量 : 0次 | 上传用户:fine_yhy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基于OCR技术的大规模文档录入系统中,自动检错可以大大降低人工校对成本。在日文OCR系统自动捡错中,日文单词因其动词度形容词、形容动词的词尾变化现象使自动分词变得比较困难。本文提出了一种基于词素的日文分词新方法.通过建立以词素为基础单位的分词词库。以最大长度优先词务匹配方法分割出文章中有词尾变化的日文单词,避免了传统日文分词中收录单词各种词尾变化形式造成分词词库过于虎大的问题。实验表明,本文提出的分词方法可以达到99.0%的分词正确率:将该方法运用在OCR捡错模块,当系统拒识率(即检错模堤中认为可疑的字
其他文献
有效的拥塞控制机制是保证Internet稳定运行的关键因素之一,网络拥塞控制系统本质上是一个时滞系统,传输时延是网络拥塞控制必须考虑的一个重要因素.本文应用Smith预估控制原理,
本文首先提出蓝牙技术,然后分析了蓝牙的安全问题,最后,介绍了蓝牙技术的安全机制。
<正> 背景丹参Salvia miltiorrhzia做为临床上减少血液黏稠度之活血化瘀药,且实际临床上使用于动脉血管硬化、脑血管和心脏血管的疾病,已有两千多年的历史。丹参首载于《神农
会议
木质纤维素属于可再生的天然生物质资源,来源广泛,含量丰富,但由于其复杂的结构特性,导致目前资源利用率较低。因此对秸秆纤维进行预处理,分离得到秸秆微纤维,使其具有较高的
来华非汉文化圈发展中国家的学历留学生日益增多,提高教学质量的关键是根据生源国的人才需求特点,合理设计留学生人才培养方案,注重留学生实践能力的培养授课。同时应加强汉
在新泽西迪克斯堡陆军基地,我不得不在泥泞中爬行,躲开带刺的铁丝网,让红外示踪光线在我的头顶扫来扫去。这不仅仅是害怕,更准确的说是极度的惊吓。我真的很讨厌学习如何成为一名
以TMS320VC33DSP为核心,采用钳形电流互感器输入和电压直接输入。设计出了电压,电流,功率。电网频率.电网功率因数的测量电路,用该设计的工频电量测试仪在实际应用中,效果良好。
基于构建的石家庄市强降水内涝数学模型,选取2、5、10、30、50、100年一遇小时降水对2017年石家庄市道路积涝水深进行情景模拟,同时以道路交通的车流、车速表征城市内涝的承
目的:观察中西医结合治疗功能性消化不良(FD)的疗效.方法:将108例患者随机分为2组,中西医结合组(治疗组)58例,用香乌消痞汤合西沙比利治疗,西药组(对照组)50例,单用西沙比利
本文在分析MS Word文档存储格式的基础上,研究了读取Word文档二进制数据流并将其恢复成可读信息的方法,设计实现了一种快速Word编程接口,大大地提高了文档处理速度和系统性能。