一种自适应概率语言模型的训练方法及其应用于中文分词

来源 :全国第七届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:zj770929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出一种自适应的概率语言模型的训练方法,采用EM迭代优化算法在未切分的语料库上训练概率语言模型的参数.本文用该算法训练了中文的基于词的N-gram模型,并应用于概率分词.实验结果显示,该算法能显著地改善汉语分词的精度.
其他文献
 介绍了大间隔采样积分控制方法在具有纯滞后特性的皮带配料系统中的应用,讨论了在实际应用中需要考虑的几个问题.理论分析和仿真结果表明本文所介绍的方法具有不需精确对象
目的探讨生化检验在糖尿病(DM)诊断中的应用及的临床价值。方法选择近3年来在我院检验科检测的80例糖尿病患者为研究组,以正常体检为健康者80例作为对照组,进行生化检测,对比两组
目的分析和研究糖尿病健康教育在内分泌科护理中的应用效果。方法我们选取2010年4月~2012年4月糖尿病患者186例,按数字随机表法将其分为观察组(93例)与对照组(93例),对照组患者在治
目的探究老年慢性支气管炎的有效防治方法。方法选取本院2010年1月~2012年1月收治的64例老年慢性支气管炎患者作为研究对象,合理采用药物、护理等方法进行治疗,对患者治疗效果
识别命名实体(本文指专有名称、未登录普通词和篇章术语)是中文处理的一个重要问题.本文采用篇章内统计的方法,计算文本文档初步切分后任意两个邻接项(包括词和落单字)的互信
目的探讨互动护理模式在肠镜检查患者中的应用价值。方法选取我院非无痛肠镜检查患者148例,分别采用互动护理模式及传统护理模式,比较2组患者接受检查前的心理状态、体位摆放时
目的建立大鼠腹主动脉瘤血管移植动物模型。方法用SD大鼠,经麻醉后取胸腹联合切口切开暴露胸主动脉。取2cm长度胸主动脉,将其一端结扎,另一端端侧缝合于另外一只同系基因型大鼠
目的探讨食管静脉曲张的硬化情况与结扎治疗效果。方法160例食管静脉曲张硬化出血患者根据治疗方法的不同分为治疗组与对照组,各80例,对照组采用栓塞治疗,2个月后再行内镜结扎治
机构名识别是未登录词识别的一个难点.本文探讨了在机构名识别中以机构名通名为激活信息,匹配通名对应的机构名模式来进行机构名识别的方法.提出了五个大类的机构名构成模式,
人名自动识别是语料库深加工及机器翻译等蒙古文信息处理工作中的重要环节之一.我们针对蒙古文人名词语的不同构成特点采取直接标注、词典、匹配以及基于上下文的算法等方式