英汉双语短语对齐

来源 :上海交通大学 | 被引量 : 8次 | 上传用户:laoyoutiao66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今自然语言处理最见成效而且被普遍应用的是统计方法。这不仅是因为自然语言普遍存在不确定性,传统的理性主义规则方法显得力不从心;而且从人力资源的成本和经济效益来看,语料库方法受到普遍的青睐。尤其在重现频率高、实际使用面广泛的专用领域的机器翻译中,双语语料库的加工具有重要的应用价值,也同样有理论意义。双语短语对齐指揭示对译的句子之间短语层次上的对应关系,是双语语料库加工的重要环节。短语对齐的双语语料库可用于翻译知识的自动获取。本系统的输入是面向特定领域的、句子对齐的、未经切分词性标注的英汉双语语料库,输出是短语对齐的双语句法树库。传统的双语短语对齐思路是分别对源语言、目标语言进行句法分析,经排歧后得出一对句法树对,然后对这对句法树对进行短语对齐。该方法的缺陷是对齐正确率受句法分析正确率影响很大。本文利用双语的特点,在“两种语言比一种语言含有更多的信息”认识的基础上,提出同时进行句法消歧和短语对齐的思路。以源语言句作为目标语言句的附加信息排除目标语言句的歧义;同时以目标语言句作为源语言句的附加信息排除源语言句的歧义。使排歧在两种语言之间进行。这样同时分析两种语言反而比分析一种语言还要容易,难度上体现出“1+1<1”的优越性。实现这一目标的理论基础是反映对译的源语言句法树和目标语言句法树之间对应和约束关系的对齐模型。由于对译的两种语言的句法树间通常不存在简单的对应关系,所以如何克服翻译中异常现象的干扰,揭示出其间复杂对应关系是主要难点。现有理论只能处理简单语序调整情况,而对其它翻译异常无能为力。本文提出了翻译中的相对不变准则,并在此基础上提出了基于抽象句法树的对齐模型,不但能处理语序调整情况,还能处理其它翻译异常。词性标注是对齐的预处理环节。本文提出了具有双重状态的隐马尔可夫词性标注模型。汉语词性标注的困难在于确定兼类词的词性。兼类词在汉语词典中仅占很小的比例(约为1500个),因此,本文对兼类词进行特殊处理,使每个兼类词具有一个专有的状态转移概率矩阵。标注过程中遇到兼类词时,不但使用常规的状态转移概率信息,同时还结合特定兼类词的状态转移概率信息,计算兼类词上下文中的状态转移概率,对属于同一词类的不同词区别对待,从而提高了模型的精确性。由于兼类词的数目小且使用频率高,所以不会受到存储空间和数据稀疏问题的影响。前期语料库准备工作中研究使用的双语语料库是汽车使用说明书方面的专业领域语料库,由作者负责组织和加工,花费5个人年、历时半年完成。该语料库由2.6万对句子对构成,约60万字/100万单词。经过反复检查获得较好的一致性,保证了语料库的翻译质量,也为双语句法树库提供了必要条件。系统实现分为三大模块:资源管理模块(包括英语语料库管理、汉语语料库管理、英语词典管理、汉语词典管理),提供词典和语料库的查询和修改功能;对齐预处理模块(包括英语词形分析和词性标注、汉语分词和词性标注、英语句法分析、汉语句法分析、英汉串频统计、术语获取),生成候选句法树对集合;对齐模块(包括句子对齐、词汇对齐和短语对齐),生成对齐的句法树对。
其他文献
20世纪 70年代以来,教育研究面临&#39;全球化&#39;浪潮及多元文化的冲击和后现代论群的频频叩问,在这样的历史背景下,解释学的研究方法日渐受到研究者的青睐.基于对解释学基
随着社会主义市场经济的深入发展和全球经济一体化的推进,随着互联网络技术的日益普及,世界各种思想文化相互激荡和新旧观念不断碰撞冲突,面对前所未有的发展机遇和空前的挑
主要阐述运用一套PLC和频敏变阻器实现对多台空压机起动的控制,从而节省部分频敏变阻器和电气控制设备,即可大大减少初期投资和维修的费用.
运用计算机多媒体制作可视化、交互式教学课件,通过互联网为语文教学提供广阔天地,让语文课旧貌换新颜,让语文教师转换教育观念,转换形象,让学生成为学习的主体。运用ACI课件要注
我们团队以前的研究结果显示,相比于静态光,动态光对警觉性和昼夜节律反应有更加积极的影响。本文主要研究不同褪黑素照度的动态光对被试工作绩效、睡意和视疲劳的影响。实验
從上個世紀七十年代至今,秦簡發掘已有三十餘年,随着秦簡材料的陸續整理公佈,學界發現秦簡内容十分豐富,其中飽含法律、文化、歷史、軍事、經濟、天文、曆譜、數術、醫藥、書法等
为了科学合理地做好湖南省“十三五”发展规划编制前期工作,调动社会各方面力量和资源,凝聚社会各界智慧,湖南省发展和改革委员会面向全国公开招标20个专项研究课题。5月8日,省发
以28个桤木无性系为研究对象,对其叶片的主要解剖构造特征进行观察、测定与比较,并分析它们在控制水分上的能力。结果表明,桤木叶为典型的异面叶,各无性系间叶片结构指标均存在极
郑新教授对治疗膜性肾病(MN)有独特见解,其认为肾失封藏、蛋白精微外泄导致肾之精气亏虚,肾精肾气亏虚亦可致精微物不固,因果循环,最终可演变为"肾衰"。治疗首当认准MN的发病
本文以语义语法理论为指导,在研究过程中遵循形式与意义、描写与解释相结合的原则,对现代汉语目的表达进行了详尽的描写和分析。本文的主要内容及创新点,归纳起来主要有以下