基于树到串藏语机器翻译若干关键技术研究

被引量 : 14次 | 上传用户:gamearner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,统计机器翻译已经成为机器翻译研究的主流,其研究经历了基于词模型、基于短语模型和基于句法模型的演变过程,正向着语义知识的模型迈进。在英汉等语言上已经取得了令人瞩目的可喜成绩。而面向藏语句法翻译模型的研究还处在起步阶段。这一方面是因为藏文信息处理的起步比较晚,另一方面是由于目前尚未完全解决藏语句法翻译用基础性关键技术。句法翻译模型是基于句法树的翻译模型,这种模型是利用句法树中所包含的句法知识和语义知识来构建的。其先决条件是具有比较成熟的词法分析技术、句法分析技术以及基于句法树的翻译规则自动抽取技术。而且依存句法树结构作为语义分析的先决工作,有助于提高统计机器翻译的质量。为此本文对依存树到串藏语机器翻译的一些关键技术进行了探索,目标在于完整地实现一个源端为藏语依存树的机器翻译系统。主要的研究内容和成果分四部分,具体如下:1.实现了一个包含分词和词性标注的藏语词法分析系统。考虑到藏语词法分析的实用性,提出先分词后词性标注的策略进行研究和实验。第一,分词部分提出了判别式的感知机模型加词图重排序的藏文分词方法,和基于规则的藏语音节切分方法。利用音节特征感知机模型进行词语粗切分并生成词图,然后在词图上计算最短路径时查询词典惩罚边权重,生成最优分词结果。兼顾了词语组成单元音节的局部特征和词语间非局部特征。第二,词性标注部分同样采用感知机方法提出基于判别式模型的藏语文本词类标注方法,融合藏语格词接续和词法特征训练出在线平均感知机词性标注模型,利用柱搜索解码算法实现了分词后的词性标注子模块。经实验证明,达到了比较理想的实验效果,目前已应用于全国藏汉机器翻译评测和句法分析等应用研究领域。2.根据藏语自身特点,首先制定了36类藏语依存句法标注规范。其次,藏语依存树库构建过程中存在的问题,提出了新颖的半自动依存树库构建模式,实现了基于词对依存分类模型的半自动树库构建可视化工具。首次构建了藏语依存树库TDTreebank V1.1,规模达1.1万句。第三,针对藏语特性提出融合丰富特征的统计藏语依存分析模型,实现了基于一层感知机模型的藏语依存句法分析器。实验结果表明,藏语依存句法分析的性能基本达到实际可用的水平,初步解决了目前藏语还没有依存句法标注规范、树库和依存句法分析器的实际问题。3.实现了藏语依存树到串模型翻译规则的抽取算法。根据依存树中依存关系的支配准则,用头-依存关系HDR (head-dependent relation)片段对藏语依存树进行分解,保证每个HDR片段包含与其他HDR片段重叠的节点,使得只需替换作为基本操作来描述依存树的生成过程。翻译规则的抽取算法通过树标记、可接受HDR片段的识别和规则的生成三步完成。翻译规则的源端为泛化的HDR片段,目标端为变量和目标语言词组组成的序列,对其进行泛化时引入了藏语开放词和封闭词性的约束,以改善翻译规则的判断能力。同时在生成头节点翻译规则时,引入了藏语基本数词的翻译模型。实验结果表明,词性的约束和基本数词的翻译有助于提高依存树到串模型的性能。4.实现了藏语依存树到串模型机器翻译的解码算法。本文选择自底向上的线图分析算法,由于在翻译规则中使用了子树一致性跨度的可接受HDR片段识别方法,对头-依存基本结构单元的操作只作替换,而且调序信息也表示在翻译规则中,故不再需要调序模型,简化了翻译解码算法。对于翻译规则词汇化和多种泛化的翻译表示方法,本文采用了所有翻译规则的完全匹配策略翻译方案,并用条件过滤和立方体剪枝算法生成最终的翻译假设。在小规模藏汉平行语料上进行了实验,结果表明,藏语依存树到串模型表现出了比较好的性能。本系统是目前第一个完成基于藏语句法翻译模型的藏语统计机器翻译系统。
其他文献
<正>13.麻辣味型(在咸鲜味的基础上,加辣味和麻味调味品俗称麻辣味型):归属辣麻味型类。由辣味和麻味调味品调配而成,主要呈辣味和麻味的味型。此味型是以咸味、辣味和麻味调
近几年,由于鸭病毒性肝炎(DVH)传播快、致病性强、血清型变异多,严重制约了养鸭业的发展。目前,检测该病最常用方法为聚合酶链反应(PCR)和酶联免疫吸附试验(ELISA)。但这些方法存在着
抗生素在治疗人类细菌感染及防治畜禽疾病等方面发挥了重要作用。但随着抗生素的大量及不合理应用,耐药菌株种类不断增多、数量不断上升,严重威胁了动物和人类的生命健康,研制和
通过查阅国内外近年来相关的文献并进行分析,综述了金银花的化学成分、提取工艺以及质量控制的研究进展,并展望其发展趋势。
目前,我国煤炭行业正处蓬勃发展时期,但是煤矿安全生产问题却一直困扰着煤矿企业。如何才能有效遏制这些影响到企业发展的安全问题已成燃眉之急。近些年来,尽管煤矿在生产上的硬
人类的一切生产、生活都离不开赖以生存的土地,土地作为一种稀缺资源具有不可再生性,然而其供需之间的矛盾已随着全球经济的快速发展变得越来越明显。这种矛盾的日渐发展在我国
基于软件无线电的数传电台系统中,DSP和FPGA的通信是一个研究重点。本文提出了一种应用SPI协议的串口通信方案,利用DSP(TMS320VC5402)上多通道缓冲串口内嵌的SPI接口和FPGA(X
设计了一套基于物联网的养殖场自动监控系统。系统运用各种传感器组成无线传感网络,实现养殖棚环境中的温度、湿度、光照强度、CO2浓度、NH3浓度等物理量参数的检测。依靠2.4
近年来我国环境质量每况日下,人们也日夜忧思由此带来的健康问题,由此环境污染也越来越受到关注,追溯环境污染的主要原因,主要归因于迅速发展的城市化建设和日益壮大的工业产业的
绩效考核虽然已经不是一个新概念,但在我国民营企业里却是一片较大的空白,大多数民营企业的绩效考核内容比较简单,考核效果也欠佳。本文就民营企业绩效考核常见的一些问题进