【摘 要】
:
为提高汉字文本的识别率,本文将基于统计的N—gram元语言模型和单字识别器概率模型结合起来.以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况
【机 构】
:
北京信息科技大学中文信息处理研究中心,北京拓尔思信息技术股份有限公司
【基金项目】
:
基金申请人:吕学强:项目名称:基于大规模真实文本的新词发现研究,基金颁发部门:北京市教委(KM200710772010)
论文部分内容阅读
为提高汉字文本的识别率,本文将基于统计的N—gram元语言模型和单字识别器概率模型结合起来.以充分利用单字识别器提供的信息。该方法把具有确定性边界的一个汉字序列(多数情况为一个句子)作为一个处理单元,利用统计获得的字字同现概率和距离值信息,采用Viterbi算法,对汉字识别文本进行自动后处理。经过实验证明,后处理将汉字识别准确率平均值从97.62%提高到98.71%。
其他文献
设备管理地点:荷兰系统介绍:为了减少污染,提高出行效率,许多国家都在鼓励复兴自行车出行方式。推广成功与否的关键在于日常租用自行车的便利性,过去人们在哪里租赁自行车必须同样
随着Internet的迅速发展和普及,人们在网络上开展的活动也越来越多,尤其是电子商务的兴起,使得网上购物逐渐成为一种时尚。然而由于互联网上的信息量日益增长,人们面对这些庞大的
针对大面积温控设备,设计一种二维压力传感器阵列。在设置压力阈值,当压力值超过阈值时,即标记为阵列中的有效活动点。在二维传感器阵列的压力值分析中,二维传感器阵列中的有
为了比较氨氯地平与硝苯地平治疗原发性高血压的疗效及其安全性,我院采用上述两种药物治疗原发性高血压120例,现将报道如下:……
为了实现基于低精度的光纤传感器的高精度定姿导航,以确保陆上运动载体能够得到自身实时、准确的姿态信息,对光纤陀螺捷联惯导系统的测量误差进行了分析并建立组合导航系统的动态模型,利用GPS天线与惯导系统在载体上的相对安装关系以及陆上载体的运动特征约束即非完整约束建立组合导航系统观测方程,采用卡尔曼滤波器对惯导系统的测量误差和GPS天线与惯导系统间的杆臂量测误差进行估计,并使用估计结果对惯导系统的速度、姿
<正>At the turn of the last century, Westerners brought cameras to China, providing an incomplete record of China and its cities. These cities, rendered in deta
近日合众达电子发布高性能音频DSP开发套件SEED-ADK6727,SEED-ADK6727采用TI新一代推出的最高性价比DSP TMS320C6727(工作主频达到300MHz),能广泛应用于高性能的音频处理系统、医
针对信息安全教学中的模拟训练问题,在分析和比较五种模拟方法的基础上,提出并设计了一个基于数据库调用的用于进行信息安全训练的虚拟训练系统。该系统通过攻击和防御工具虚
在本次论坛的专题演讲中,华新民开门见山的强调了关注的焦点:“我的这个标题是‘寻找受伤的主人一在沉默了半个世纪的老宅里’。因为我觉得现在绝大部分人说到保护的时候,可能关
DM642作为一种专用的数字媒体处理器,提供了丰富的多媒体信号处理指令集,所以若能充分利用这些指令,将大大提高多媒体数据处理能力。然而,嵌入式系统和PC机有很大的不同,存储器空间的大小也有限,在其上进行程序开发时,需要充分结合考虑硬件特性。本文在对DM642嵌入式系统实现图像编码的基础研究中,主要从调整编码器软件流程结构、存储器系统的使用和管理、程序代码级优化方面展开讨论。实现和优化基于DM642