面向维汉机器翻译的词对齐关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liliqqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的不断发展,不同文化背景、不同语言习惯的人们在文化,经贸等各个领域的交流日渐频繁,语言障碍成为人们交流过程中遇到的主要障碍。统计机器翻译(Statistical Machine Translation,SMT)研究的蓬勃发展为人们“跨越”这一障碍提供了契机。统计机器翻译的核心思想是首先对大量的双语平行语料进行统计分析,进而构建统计翻译模型,使用得到的模型对测试文本进行翻译。双语词对齐是统计机器翻译整体框架中十分重要的一个部分,它是短语表生成、调序规则抽取等的前提,词对齐的准确率对统计机器翻译系统的性能有着不容忽视的影响。然而,学术界对于面向维汉机器翻译的词对齐研究目前尚处于起步阶段。维吾尔语属于黏着语,通过在词尾附加若干词缀构成新词,汉语属于孤立语,它是通过字形的变化表达不同的词义;维吾尔语句法结构是主语-宾语-谓语,而汉语是主语-谓语-宾语。两种语言构词及句法结构上的差异决定了维汉词对齐过程中会出现较严重的数据稀疏以及非对称对齐,影响维汉机器翻译系统的翻译性能性能。  本文以维汉机器翻译中的词对齐为主线,围绕对齐中存在的两个问题:数据稀疏与非对称对齐展开研究。从维汉两种语言构词及句法结构差异出发,提出优化的词对齐策略(基于共现程度的维汉词对齐)以及新的双语资源发现方法(基于二元分类的维吾尔语中借词识别),极大地改善了词对齐中的数据稀疏问题;提出了维汉组块对齐这一新思路(面向机器翻译的维汉组块对齐),有效地解决了维汉词对齐中的非对称对齐问题。另外,为了最大限度地减小词对齐阶段出现的错误对后续的参数调整、解码的影响,本文提出了一种基于分类思想的维汉短语表过滤模型(基于朴素贝叶斯模型的维汉短语表过滤),对短语表中的不合理短语对进行过滤。  本论文的创新点描述如下:  1、基于共现程度的维汉词对齐  为了从对齐模型层面缓解维汉词对齐过程中的数据稀疏,本文提出了一种面向维汉机器翻译的基于共现程度的词对齐方法。该方法与传统的基于词共现次数的方法有较为明显的不同,它是通过结合词共现次数以及模糊共现权值来构成词对齐程度。与基于词干切分的方法相比,该方法可以有效地保证维吾尔语端信息的完整性。  2、基于二元分类的维吾尔语中借词识别  依据维吾尔语中借词与原语言中对应词语发音相似这一特点,并充分考察维吾尔语词的构词特点,本文提出一种基于二元分类的维吾尔语借词识别模型。该模型借鉴统计机器学习中的分类思想,将多个字符串相似度算法获取的相似度指标作为分类器的输入,是否为借词作为分类器的输出。  3、面向机器翻译的维汉组块对齐  为了缓解维汉机器翻译词对齐过程中的非对称对齐问题,本文从统计模型的角度提出了一种基于对数线性模型的维汉组块切分方法。对照汉语句子的切分结果,基于无监督的特征学习方法,获取维吾尔语端的组块边界信息。为了最大限度地使用双语资源提供的信息,融合多种特征,本文将对数线性模型作为基线模型。  4、基于朴素贝叶斯模型的维汉短语表过滤  本文充分考察维汉机器翻译短语表中源语言短语和目标语言短语之间的相关性和差异性,并结合维吾尔语语言特点及其迥异于汉语的构词方式,提出了一种基于朴素贝叶斯的维汉机器翻译短语表过滤模型。该模型将从短语表中抽取的信息作为朴素贝叶斯模型的四个特征,当前短语对是否过滤作为模型的输出。
其他文献
在直销业高速发展的今天,经销商的增多及公司规模的扩大使得公司原有的管理系统难以满足直销业信息化建设的需求,从当前直销业的发展特点和现实状况出发,在充分考虑直销业经营发
当前,计算机辅助设计和绘图(CADD)技术在建筑设计领域内已经得到了广泛的应用,早已实现八十年代初国家科委提出的“甩图板”的目标,减少了设计人员的工作强度并大大提高了设计和
本文对360度绩效评估系统中数据清洗子系统360-Cleaner的设计与实现进行了研究。主要内容如下: ⑴讨论了数据清洗过程中的关键技术,比较了各个方法的优劣性,提出了相应的改进
随着计算机及Internet技术的迅速发展,大范围的信息高速传输和资源共享已经实现,极大的方便了人们的生活。同时,嵌入式技术的发展与应用也面临新的机遇和挑战,人们对各种电器产品
学位
我国地质灾害现象较为严重,按致灾地质作用的性质和发生处所进行划分,常见地质灾害共有12类、48种。它们是:地壳活动灾害、斜坡岩土体运动灾害、地面变形灾害等。 随着城市现
磷矿资源是一种不可再生资源,是现代农业的重要肥源之一,保护磷矿资源,实现其可持续开发和利用不但关系着磷肥产业的兴衰,也关系着我国粮食的生产安全。世界磷矿资源正在逐步贫化
为确保国家秘密安全,国家相关部门明确禁止携带移动终端进入保密要害部门部位,但不可避免相关人员通过无意或故意途径将智能终端带入,并连接到周围接入点进行信息传输,从而导致信
随着Internet的迅猛发展,电子商务也迅速发展起来,但是网上电子交易信息的安全问题业已成为电子商务的进一步发展的瓶颈。如何在开放的网络上保护交易信息的安全,使之不被非法获
时态地理信息系统(TGIS)是GIS的重要研究方向。TGIS把GIS概念从单一的空间维扩展到了时间维。近些年来,随着TGIS应用面的不断扩大,TGIS也涌现了大量的技术细节上的问题。解决这