基于词素短语的维汉机器翻译技术研究与实现

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:mutaozhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国西部大开发的进行及新疆地区的大发展的实施,维汉机器翻译作为一种快捷方便的沟通工具能够辅助新疆地区经济和社会的和谐发展。然而,目前关于维汉机器翻译的研究较少,本文针对基于短语的维汉机器翻译中的数据稀疏等问题,展开了关于维汉机器翻译的研究:   (1)为了能完整的描述维汉机器翻译方面的问题,本文给出了一个维汉机器翻译研究框架,并对其机理进行了详细叙述。同时,对框架中所涉及的一些关键问题进行了阐述。   (2)为了缓解维汉机器翻译中的数据稀疏问题,本文在基于短语的维汉机器翻译研究基础上,结合了维语的形态特征,在维汉机器翻译研究框架之下,提出了基于词素短语的维汉机器翻译。该方法将维语单词分割为词干和附加成分两部分词素,使翻译的基本单位由单词短语变为词素短语。相关实验表明,本文给出的方法能够在很大程度上降低维汉机器翻译中的数据稀疏程度,使翻译质量大大提高。   (3)词切分是基于词素短语的维汉机器翻译的必须步骤,其切分质量将直接影响翻译质量。本文通过研究已有的基于统计的维语词切分方法,结合维语单词的构成规则,给出了一种基于规则的维语词切分方法。基于统计的切分方法是将语言视为由词素和语法组成的模型,通过得到最高的模型概率从而得到该语料库的最佳切分结果。基于规则的切分方法是按照维语的附加成分库及音节规则,语音变化等规则,并结合从语料库中得到的词干库从而得到最终的切分结果。实验表明,基于规则的切分方法由于符合维语的实际情况,因此所得结果比基于统计的切分方法较好。   (4)对本文所述的方法进行了实现,并开发出了TellMeaning维汉机器翻译系统。本文给出了一个较为完整的维汉机器翻译框架,同时结合维语特征,对维语单词进行了词切分,并引入词素概念缓解了翻译中的数据稀疏问题。本文所给的方法具有良好的实用性,并对相关机器翻译系统开发具有一定的借鉴意义。
其他文献
曲面相交算法是计算机辅助几何设计中的一个重要研究课题,是用计算机及其图形工具表示、描述物体形状和设计几何实体,模拟物体动态处理过程的一门综合技术。算法有各自的应用
启发式搜索是智能规划领域的重要方法之一,其策略核心为启发式函数的拟定。路标是规划任务中成功规划必须实现的子目标,实验证明,基于路标的启发函数能有效引导启发式搜索过程并
数据挖掘能从大量数据中,提取有用的信息。分类是数据挖掘的重要功能之一,在很多领域得到了广泛的应用,如医疗、保险、金融等。不同的分类方法有各自的优点,同时也存在一定的
软件可靠性是衡量软件产品的一个重要指标,对于软件可靠性的研究是评估软件性能、控制软件开发过程、提高软件产品质量的基础,软件可靠性模型在这个过程中起着至关重要的作用。
无线Mesh网络作为下一代无线网络关键技术,得到了人们广泛的关注与迅速发展,如何保证用户业务的服务质量已经成为了无线Mesh网络亟待解决的关键问题之一。本文在分析基于时分多
SDM是移动核心网中用户数据管理系统,是移动核心网的数据中心。网络运行中其它核心网网元需要的用户数据需要向SDM申请。SDM主要功能包括帮助运营商实现对所有与用户相关的数
新视点图像合成是当今计算机视觉和图像处理领域的交叉学科,是虚拟现实技术重要组成部分。基于图像的视点图像合成技术克服了传统的基于3D模型的视图合成算法的不足,具有真实性
P2P流媒体技术凭借其低成本、良好的可扩展性和易部署特性成为大规模视频直播、点播系统的首选解决方案,也迅速成为学术界的研究热点。然而,这一领域也充满挑战:P2P网络是一个
20世纪以来,群智能优化算法作为一种新兴的优化算法,受到优化领域众多研究者的广泛关注。算法通过模拟社会性动物的各种群体行为,利用群体中个体之间的信息交互和合作来实现寻优
软件产品已经应用到社会生活中的各个领域,人们对于软件产品的质量也越来越重视。软件测试作为保障软件产品质量的主要手段,在整个开发周期中所占的比重也越来越大。随着软件