一种在线递增式语言模型自适应方法

来源 :中文信息学报 | 被引量 : 211次 | 上传用户:flysky1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对传统统计语言模型的离线自适应方法 ,提出了一种在线实时的递增式自适应方法。该自适应方法需要解决几个问题。第一是要设计一种语言模型结构以适应在线的自适应 ;第二是如何利用在线收集到的语料对语言模型进行实时的参数修改 ;在我们设计的中文音转字平台中 ,将语言模型分成两个部分 ,分别是通用模型和用户模型。对于通用模型 ,采用高效的存储结构结合参数预取技术 ,提高了模型的速度 ;对于用户模型 ,使用动态的加权方法结合MAP动态调整参数。本文所做的实验证明使用该方法能较大程度的降低中文音转字的错误率
其他文献
DHCP服务器可以为网络中的主机动态分配IP地址.从技术性和实用性角度,阐述如何在Linux系统下通过配置DHCP服务器和DHCP中继代理,实现多网段共享一台DHCP服务器.
<全衡>是第一个较全面考虑香港和国际的需求的网上汉字输入系统,其核心部件是词典.<全衡>使用的是一部拥有六万余词条的词典,每一词条讲述一个词语,信息包括该词语的简体字形
分析了彩色副载波和伴音内载波差拍干扰产生的原因、设计应考虑的问题以及测试方法。
据成都日报报道,自称“词坛怪才”的词作者张俊以日前因涉嫌诈骗被拘,据说涉案金额上亿元人民币。据法律界人士介绍,如果巨额诈骗成立,张俊以最高将被判无期徒刑甚至死刑,如
<正>~~
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型(Vector Space Model)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表
股份制是适应社会化大生产条件、符合现代企业需要的资本组织形式,股份合作制是适应社会主义市场经济要求、符合社会主义初级阶段生产力发展水平的企业组织形式。对国有大中
由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做了一些有益的探索。先对文本进行自动分词和自动词性标注 ,然后利用从已经经过人工标注的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进行自动预测 ,最后利用规则进行适当的纠错。通过对一千句的真实文本进行封闭和开放测
<正>~~
<正>~~