统计机器翻译中的中文分词策略研究

被引量 : 0次 | 上传用户:longzy773
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
步入信息时代,人们对语言间翻译的需求与日俱增。传统的基于人工的翻译已经远远不能满足人们的需求,而机器翻译,特别是统计机器翻译,因其良好的自动学习能力和较好的翻译效果逐渐受到人们青睐。“词”是语言中能独立运用的最小语言单位。与英语等语言不同,在书写汉语句子时,词与词之间没有分隔标记。因此,对中文文本进行词的识别,即中文分词,就成为了构建汉语相关的机器翻译(如汉英机器翻译)的一个重要预处理步骤。长期以来,人们对中文中“词”的定义没有达成共识。已有的工作表明,不同的自然语言处理任务对分词有不同的需求,在单语意义下性能较好的分词工具,未必能在双语应用(如机器翻译)中得到较好的性能。因此,需要重新考虑机器翻译所采用的中文分词策略。中文分词对统计机器翻译的影响是非常复杂的,主要体现在全局和局部两方面:1.从全局看,机器翻译流程的各个步骤性质不同,对中文分词的需求也可能是不同的。已有的工作忽略了中文分词对机器翻译的全局影响,在优化中文分词时假设各个步骤采用的中文分词是同一种分词,并在此假设下对中文分词进行整体优化。这一做法容易导致机器翻译系统的性能由于使用非最优的分词组合而受损。2.从局部看,机器翻译流程的每一个步骤中也有对分词粒度的选择问题:粗粒度的分词能捕捉较多的上下文信息,细粒度的分词能缓解模型的稀疏性,两者各有利弊。已有的大部分工作忽略了中文分词对机器翻译的局部影响,在各个步骤中仅使用一种分词粒度,这一做法可能导致该步骤的性能由于所选择的分词粒度的不合适而受损。针对中文分词对统计机器翻译影响的复杂性和已有工作的不足,本文提出了在汉英(英汉)统计机器翻译中融合多种中文分词的框架,以充分利用多种分词中包含的“多样性”和“互补性”的知识,主要工作如下:1.针对中文分词对统计机器翻译对的全局影响,本文提出了一种串行式分词融合策略。在机器翻译流程的不同步骤中分别采用不同的中文分词,以得到有利于提高翻译性能的中文分词组合。串行式融合策略缓解了统计机器翻译系统的性能由于使用非最优的分词组合而受损的问题。2.针对中文分词对统计机器翻译对的局部影响,本文提出了一种并行式分词融合策略。在同一步骤内部以多种分词作为输入,利用蕴含在多种分词中多样和互补的知识,提高各步骤的性能:在词对齐阶段,将基于多种分词的词对齐结果以启发式的方式进行融合,并针对这一启发式算法在建模、搜索、训练方面的局限性,进一步在判别式模型的框架下提出了基于多种分词的判别式词对齐模型,形式化地定义了多分词环境下判别式词对齐模型的建模、搜索、训练等问题;为了提高英汉机器翻译中语言模型的调序能力,在解码时融合基于多种分词的语言模型。并行式融合策略缓解了统计机器翻译系统某步骤的性能由于所选择的分词粒度的不合适而受损。3.针对仅已有工作提出的利用词对齐知识来学习面向机器翻译的分词的不足,本文提出了一种融合单语知识和双语知识的分词方法。该方法有效地利用了双语词对齐的结果和单语分词工具的分词结果,利用序列标注模型,学习出一个独立的面向机器翻译的分词模型。该方法缓解了已有方法仅利用词对齐知识学习分词模型的不足。
其他文献
采用针刺无纬布预制体,沥青浸渍-炭化和树脂浸渍-炭化相结合的致密工艺,并经过高温处理后制得制氟用炭/炭复合材料电解板。进行了力学、电阻率、热学性能检测;同时,经过了在电解槽
在中国,党内法规既是管党治党的重要依据,也是建设社会主义法治国家的有力保障。新时代要提升党内法规的执行力,必须强化全体党员的尊规守规意识,这就对党内法规的传播策略提
将随身课堂与大学生心理健康教育相结合,通过建设心理健康教育网络平台,在课堂教学中融入教学平台的资源,在课后学生可以通过网络平台开展自主学习,将平台与学校举办的各类心
利用我国1992-2009年间的时间序列数据,结合VAR模型脉冲响应函数,对我国城市供水行业的政府规制行为与规制效果的动态关系进行了实证检验。研究发现,我国放松市场准入的规制
总结了低负荷调峰运行对机炉的不利影响 ,分析了低负荷调峰时滑压运行的优缺点 ,采用滑压运行方式降低低负荷运行带来的不利影响
中国轴心时代思想中的身体主要是一种"身心合一"之"身",这个"身"内在地包含着"肉体"和"精神"两个方面,儒家和道家皆是如此。儒家的"身"通过践行仁、义、礼、智、信等伦理准则
本文采用实证研究,总结了优秀教师的特质,并提出优秀教师的概念以及培养策略,期望能为学校管理者培养教师以及青年教师的成长提供一点参考。
运用协整分析和格兰杰因果检验方法,考察了洱海流域1999-2011年城市化水平与非点源水污染之间的相互关系。研究结果表明:城市化水平与非点源水污染序列都是一阶单整序列;城市