CWMT2008机器翻译评测技术报告

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:chung51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对哈尔滨工业大学机器智能与翻译实验室向CWMT2008所提交的机器翻译系统及译文融合系统进行了介绍,其中包括3个机器翻译系统和3个译文融合系统。机器翻译主评系统为一个加入了句法信息的基于短语的统计机器翻译系统,第一对比系统为一个在训练阶段加入了词对齐优化过程的基于短语的统计机器翻译系统,第二对比系统为前两个系统的句子级融合结果。译文融合主评系统为一个基于最小贝叶斯风险的句子级融合系统,第一时比系统为一个基于多特征和机器学习方法的句子级融合系统,第二对比系统为一个基于最小风险的词汇级与句子级混合的融合系统。本文对以上6个系统的技术内容进行了详细介绍,并通过实验验证了系统的性能。
其他文献
全面、系统地研究语义角色与句法成分的对应机制,总结语义成分映射为句子成分的规律,是从事自然语言理解研究的学者们追求的主要目标.在大规模标注语料库的基础上进行研究,可以如实反映现代汉语语言现致全貌.在标注过程中遇到许多值得研究的问题,如有些成分不属于某种典型的语义成分,也没有在其他相关论著中出现过,究竟如何为它定性、确定归属是一个难点;"有"字句等特殊句式中主客体之间复杂的语义关系和对同一介词引导的
论文以19世纪初期到20世纪中期约一百三十年问的粤语选择问句为研究对象,其中包括选择问句的句式及语法词的研究。论文根据16种早期粤语文献,建立早期粤语疑问句语料库。利用语料库的查询、筛选、排序和统计功能,从共时的角度描写早期粤语的选择问句系统,描写的对象包括选择问句的句式、语气助词和析取连词;另一方面,引入层次的概念,通过对有关的语法词和句式进行历时层次分析,从中窥探粤语选择问句一百多年来的演变。
优选论在20世纪90年代初诞生于音系学领域,很快地风靡了整个语言学界,在语言教学、语言习得等边缘领域也获得了广泛的应用。本文运用优选论来分析英语词汇借入香港粤语的语音折合行为,尝试解决传统音系理论难以概括的例外现象。文中针对纯音译借词作讨论,“纯音译”借词意指其使用的汉字或有音无字的音节,只表现了外语原词的语音,而没有表意的功能。
现代香港粤语舌根音节[ku-]、[k‘u]后接[c]元音时其介音[u]的丢失对一部分人来说确实是客观事实,但我们的调查研究证明,近五十年来,这种变异(u介音丢失)并未形成不可逆转的大势,相反,在新一代香港人的口语中,该组音节中的[u]介音有重拾的趋势,这是本文研究的新发现。此外,说话人的性别显示出女性恢复介音[u]的速度比男性快。研究表明,近二十年来,香港粤语介音[u]的重拾与香港社会的发展及香港
本文对部分粤方言声母系统中三个送气清塞音声母的擦音化现象,即ph>h、th>h、kh>h/f在粤方言中的地理分布和音韵分布加以考察,并从方言史和语言接触的角度讨论分析上述音变的性质和动因。
在现代广州话口语中,“喺”有以下几种用法:(A)[~L]喺房处。(B)[~LV]喺香港住。(C1)[VO~L]放啪嚼啄台上面。(C2)[V~L]坐喺张沙发处。但在19世纪初的粤语文献中,上述用法中的“喺”都用“在”来表示。那么,“喺”是什么时候、从哪一种用法开始使用的呢?本文拟通过对32部早期粤语文献的分析,来详细描述“在”被“喺”取代的过程,并尝试对该现象作一初步的解释。其结论为:在“在”具有的
在过去就单音节名词字高升变调的研究中,笔者一直察觉到同音冲突回避倾向的重要性。为全面探讨高升变调与同音冲突回避倾向之间的关系,笔者尝试将以往摘出的391个单音节名词字全部分配到音节表上,然后,根据每个声韵母音节内出现的名词字的数目及同音冲突状况分类,再分析各冲突状况类别音节内名词字的变调情况。调查结果显示,同音冲突回避倾向与高升变调情况确有一定程度上的关系。但变调与否还与词义、音韵因素、辨别功能以
本文给出了参加第四届全国机器翻译研讨会(CWMT2008)评测的系统介绍,包括基于短语的统计机器翻译模型,和句子级融合的系统融合模型。翻译系统首先对训练语料进行预处理,构造了一个基本系统,然后利用大小写敏感的3元语言模型恢复英文的大小写。预处理部分使用了规则的方法,对翻译中的数字进行了单独处理,系统融合模型统计n-gram的频率,利用投票的方法选择最优的翻译。
本文介绍了SYSTRAN参加CWMT2008机器翻译评测的两个汉英机器翻译系统。作为对比系统的是已经融入不同统计方法的基于规则的机器翻译系统,主系统是在此基础上进行统计方法自动译后编辑。本文介绍了两个系统中运用的技术,训练数据,和在CWMT2008中的评测结果。SYSTRAN汉英系统在所有的汉英机器翻译参评系统中BLEU分数排在第三,NIST分数排在第一。
本系统采用基于MBR解码和混淆网络解码的多系统融合策略,融合结果来自于三个翻译系统:(1)基于短语的系统:抽取相容短语对,进行Beam-search 解码;(2)基于分层短语的系统:抽取SCFG文法,进行基于CKY的解码;(3)基于依存树到串的系统:采用和分层短语相同的文法,在解码时对目标语言进行句法分析,按照自底向上顺序遍历树节点。