汉字识别语言模型的一种新探索

来源 :中国自动化学会第15届青年学术年会 | 被引量 : 0次 | 上传用户:fenglu84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先讨论了几种以马尔可夫链为基础的语言模型,在此基础上,提出适于汉字识别的五字混合模型.该模型的特点是它不仅利用某字以前的信息,也利用该字的后续信息来修正该字.实际上,该模型包括三个三字模型的叠加,并包含了能反映文章自身特点的Cache特性,在使用计算机对汉语自动分类的基础上,也加入3g-gram模型,从而使该算法的速度大大提高,还使用了一种计计算机可以大致区分正误字的方法.基于该模型,做了一个包含约150万字的语料库进行实验研究,所得的结果令人鼓舞.
其他文献
不同方法破除大麦种子休眠效果比较江苏省建湖县种子公司葛振声主要农作物中,大麦种子的休眠现象最为明显。室内检验时,我们常用物理、机械和化学药剂处理等方法来打破种子休眠
本文以非标准英语形式特征分析为出发点,结合英文作品,探讨了非标准英语在语言中的妙用特点,通过本文的剖析,希望能给予同行以借鉴。 Based on the analysis of non-standar
该文从理论上提出了确定汉字识别最佳字域的方法,并给出了实验数据。作者认为,当识别字域扩大后,原来不属于识别字域的字可能被正确识别,但原理被正确识别的字可能由于相似字的增
该文是在HCL2000汉字数据库的基础之上进行的研究,根据对HCL2000汉字库的职业的统计分析,研究人员得出了一些新的结论。各种职业与识别率的相关性是很大的,这说明不同的职业样本
翻译过程中必然会存在很多的文化因素影响,有必要对这些因素进行系统的考虑,进而提升翻译水平。本文首先探讨了翻译过程的文化信息处理,进而从文化翻译与等效翻译两个角度分
英语学习着重于听说读写四个环节,而听力又是英语学习的一大难点。初中学生接触英语时间不长,缺乏系统、专业的英语学习训练,其听力学习因为语音知识、词汇量、听力训练等方
雅思听力测试中的主观归纳题一直是考生失误率较高的题目类型。文章通过对这类题型的分析和总结,找出学生在此类题型中遇到的困难的症结,并应用语篇分析中的理论知识归纳雅思