基于实例的维汉机器翻译若干关键问题研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:zxcfs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是目前人工智能中最活跃的研究领域之一。近年来基于语料库的机器翻译方法越来越成为研究的热点。作为基于语料库机器翻译分支之一的基于实例的机器翻译(EBMT)因较经济、建立快等特点,赢得了研究者的兴趣,对其研究具有重要的理论意义和使用价值。维吾尔语信息处理研究起步较晚,虽然目前很多研究人员在维吾尔语信息处理做了不少工作,但其基础性研究的成果和可利用工具等还是非常有限。维吾尔语作为典型的粘着性语言,其词法及句法方面与汉语有明显的不同。维吾尔语丰富而复杂的形态为维吾尔语的信息处理研究带来挑战和机会。本文以服务于基于实例的维汉机器翻译方法为宗旨,从维吾尔语的词法开始,对影响维吾尔语--汉语机器翻译的从以下几个方面进行了研究。具体的讲,本文从如下几个方面进行了研究:1.研究了维吾尔语音变现象的自动还原方法。提出了基于词内对齐方法的音变现象自动还原模型。此方法绕开以往采用的通过建立规则进行还原的方法,将音变字母还原的问题转变为序列标注问题,并用统计方法进行还原。该方法不仅易于实现,而且对于还原较复杂音变现象方面比规则方法有优势。2.研究了维吾尔语词法分析器,提出了维吾尔语词法的有向图模型。此模型将一个词看成是词干及各词尾之间的有向树,词干和词干之间的关系也描述为有向树;把词干和词尾的相应标注之间的关系也看成是对应的有向树;再把词的有向树和标注的有向树通过词和标注之间的约束关系结合起来构造一个有向图,给节点之间的边赋权值来表示每个节点之间的约束力。实验数据表明,此模型具有很好的词法分析能力。3.研究了维吾尔语-汉词(以下简称维汉)对齐方法。根据维吾尔语词尾数量多又能表示某种语法意义的特性,提出了对维吾尔语词进行词干、词尾分离方法;同时,针对词尾变体形式各异但又表达相同意思的特点,提出了采用统一的泛化形式的策略,来克服数据稀疏问题。分析维吾尔语词尾虽然也携带信息,但并不一定在汉语中明文翻译的特点,提出对词尾采用“分离—丢弃”方案,对在汉语中有直译的词尾采用“分离”方案;对于虽然在维吾尔语中表示某种意思,但在汉语中表示不出来或不经常翻译的词尾采用“丢弃”方案。该方法因同时考虑了词尾的信息以及句子的长度问题,对维汉词对齐的提高起到了积极的作用。4.提出了改进的互信息方法,并用统计与规则结合的策略提高了维吾尔语多词表达的正确率和召回率。首先,对维吾尔语中多词表的形式及结构做了分类,然后从目前常用对数似然比、互信息及卡方等统计方法抽取维吾尔语多词表达并分析结果。提出结合对数似然比和互信息相结合的方法。同时,提出与规则结合的改进的互信息方法,通过设置的多词表达模板来过滤非多词表达。实验证明,通过本文提出的方法,正确率和召回率都有了一定的提高。5.开发了基于实例的维汉机器翻译系统。为了提高相似实例查找的速度以及降低形态对检索的影响,对维吾尔语词采用了倒排索引的存储结构。同时,从不同角度、不同层面考虑,分别采用了词形相似度、词序相似度、句长相似度以及相似片段夹角等相似度计算方法获得了相似句子候选,并采用“相似片段译文在相似实例译文中的位置来估计目标句中的位置”的原则生成了目标句子。同时,将基于有向图的词法分析器、词尾泛化、“分离—丢弃”方案以及多词表达抽取方法应用到系统中,提高了词对齐信息质量。系统翻译质量比以前有提高的趋势,说明我们的词法分析、词对齐以及多词表达等方面的研究对机器翻译质量的提高确实有贡献。
其他文献
期刊
距离英特尔首次提出转型为数据公司已有两年。英特尔CEO科再奇(BrianM.Krzanich)说,英特尔未来应该是一家“驱动云计算和数以亿计的智能、互联计算设备的公司”,随之将投资重点从P
一个社会的和谐发展.离不开社会大众心理的和谐发展.当然也离不开以心理与行为为研究对象的心理学科的和谐发展。一个和谐发展的心理学科能包容各种争议与分歧、整合各种体系与
相似度计算是计算机学科中一个重要的问题,其应用遍及多个领域,如互联网、数据挖掘以及生物信息学等。随着信息技术的发展,每时每刻都会产生庞大的数据,使得相似度计算在海量
光是信息传递的一种非常重要的媒介。光在本质上是矢量,在自由空间中传播的光可以用它们的复振幅:强度和相位描述。相位是光信息中的一种内在特性,物体几何和物理特征的75%左
环境保护作为21世纪人类的公共理念意识,在对于鸟类保护方面也有了很大改善,但同时由于鸟的繁衍也对输电线路造成了鸟粪闪络、鸟巢材料短路和鸟类身体短路等问題。传统驱鸟方式如防鸟板,驱鸟罩、声光及超声波驱鸟器等措施虽然起到一定防鸟害效果,但存在着维修成本高、设备易损耗等问题。计算机视觉领域的迅速发展使得智能视频分析技术广泛渗透到实际应用中。因此,本文基于计算机视觉相关算法对输电线路附近鸟害行为信息获取并
随着移动阅读应用开发的加快,电子书内容必将从"粗放式"经营向精耕细作转变,这极大地推动了电子图书出版向纵深发展。起点阅读、天翼阅读、掌上书院等移动终端APP的大面积覆
<正>在省级层面成立银税互动工作领导小组的同时,在地市县级层面,各地市银监、税务、银行业金融机构等相关部门围绕银税合作工作目标密切配合。多种措施有助于扩大银税互动影
从网络流量分析及业务性能管理平台入手,分析如何实时和回溯分析各种业务流量在网络中的传输情况。通过全网监控和分析,提前发现网络隐患、定位应用故障原因,监测业务系统性能,提
家电产业是慈溪地方经济发展的主要支柱产业。目前,慈溪家电产业拥有整机企业近2000家、配套企业近1万家。但是其以贴牌生产为主,自有品牌档次低等问题也十分突出。本文根据