汉英双语语料库自动对齐研究

被引量 : 133次 | 上传用户:teamworkhlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是对自然语言的形、音、义等信息进行操作和加工的一门学科。当今社会,随着计算机的日益普及,信息化程度的日益提高,人类交流的日趋频繁,对自然语言理解技术的需求也越来越大。 自然语言处理包括两种基本的研究方法:理性主义研究方法和经验主义研究方法。根据它们在实际的自然语言处理中的不同表现,它们又通常可以称为基于规则的方法和基于语料库的方法。由于这两种方法之间可以取长补短,所以将这两者相结合成了当前自然语言研究的趋势之一。具体地,这种趋势表现为,许多研究开始着重于从大规模语料库中抽取语言知识的规律,然后利用这些规律来指导自然语言处理的过程。 根据所含语言种类的多少,语料库可以分为单语语料库和多语语料库。前者只含有单独的一种语言的文本,而后者却含有多种语言的对照互译文本。多语语料库中最典型的就是包含两种语言互译文本的双语语料库。由于双语语料库含有两种语言之间的互译对照信息,因此它对于这两种语言之间双语方面的自然语言处理具有极其重要的研究和应用价值。正因为如此,双语库的建立和加工便成了当前语料库技术中的重要研究课题。 双语语料库处理的关键技术之一是对齐,即在双语文本中找到互为翻译的源文和译文片段。对齐的单位包括篇章、段落、句子、短语、单词甚至字符等等,不同的自然语言应用要求做到不同单位的对齐。 汉语和英语作为世界上最具典型的两种不同语言,在自然语言处理的对象当中具有相当重要的地位。建立一个合适的汉英双语语料库,对于汉语和英语的双语方面的研究具有十分重要的意义。然而,迄今为止,针对汉英双语语料库对齐方面的研究却相对贫乏,这是本文的研究动机所在。 本文对汉英双语语料库对齐工作进行了详尽的考察和研究,取得了以下成果: 1、针对英语句子边界的歧义,本文提出了一种基于规则、错误驱动的英语句子边界辨识规则学习算法。通过学习算法的训练,可以从语料库中获取英语句子边界的辨识规则,避免了手工获取规则的大工作量和所得规则的不科学性和不一致性。 2、双语语料库自动段落对齐在以往的许多研究中没有受到应有重
其他文献
公司制企业的迅速发展产生了一系列的社会问题,这种单一强调股东利益的公司治理结构导致了民众的强烈不满,并引发了一场如火如荼的企业社会责任运动,之后,利益相关者理论开始
本文通过实验,研究了塑料管溴化锂吸收式制冷机中聚四氟乙烯换热器的传热性能及制冷机组性能。在聚四氟乙烯换热器的传热性能中,将经验公式计算的传热系数与实验传热系数进行对
入侵检测系统(IDS)的主要目标是检测计算机系统内部或外部入侵者的非授权使用、误用和滥用。IDS独特的作用使它在网络安全体系中占有不可替代的地位。生物免疫系统与入侵检测
沈阳市491例育龄人群影响婚前医学检查相关因素研究 前言 婚前医学检查作为强制执行的法定制度在我国曾执行十余年之久。但本世纪初,修订后的新《婚姻登记条例》将“强
从1944年其成名作《玻璃动物园》在芝加哥上演到1983年在纽约去世,田纳西·威廉斯的戏剧创作生涯长达四十年之久。他的毕生创作包括二十五个多幕剧、众多的独幕剧、两卷诗集和
心肌肌钙蛋白(cardiac Troponin,cTn)是存在于心肌肌原纤维中细肌丝上的收缩调节蛋白。心肌细胞受损时,cTn的I亚单位(cTnI)和T亚单位(cTnT)弥散进入外周血中。1987年Cummins等
<正>文化产业是在全球化的消费社会背景中发展起来的一门新兴产业,是全球化的消费社会背景中发展起来的一门新兴产业。被公认为21世纪全球经济一体化时代的"朝阳产业"或"黄金
会议
泉州市南建筑博物馆藏有丰富的具有闽南地区特色的石雕狮子(以下简称石狮),主要有门狮("狮子滚绣球""太狮少狮")还有"风师爷"及望柱狮等几种类型。文章主要通过泉州市南建筑
本文以多定态化学反应体系和守恒振荡体系为代表,研究了体系与环境的耦合作用给体系带来的新动力学特征及有可能出现的自组织行为。多定态转变是单变量三分子化学反应体系中
中国历来是一个诗的国度,诗教有着悠久的传统,但是这一优秀传统曾一度遭到了破坏。诗教在培养人们的性情、陶冶人们的情操、铸造民族精神等方面具有不可替代的作用。在当今社