汉-维时间数字和量词的识别与翻译研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:uuuuurzm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器翻译技术的迅速发展,命名实体识别与翻译研究取得了突破性的进展,它是在自然语言处理中的关键性研究分支。如今,汉语-维吾尔语机器翻译领域中开展了大量的研究工作。本文提出了基于规则与模板的时间、数字、无歧义量词、有歧义量词的翻译方法及基于神经网络的有歧义量词翻译方法。本文主要研究以下三个方面的工作:(1)根据汉语-维吾尔语的翻译需求和维吾尔语的语法结构,首先收集与挖掘大量的汉语时间表达式、数字的分类(基数、约数、集合数、分数、倍数),然后分别构建双语规则库和翻译模板,识别汉语时间表达式或数字并找出它相应的规则模板,输出时间表达式或数字对应的维吾尔语翻译结果。(2)对于量词进行分析与归类,将量词分为有歧义量词与无歧义量词,无歧义量词分为四种情况(数字一一对应,量词丢失;数字一一对应,量词一一对应;数字丢失,量词一一对应;数字量词均丢失;),对有歧义量词根据上下文名词的不同,量词对应的翻译结果也有所不同,通过上述的分类方法收集量词短语并分别增加规则库。(3)基于Seq2Seq模型实现有歧义量词短语的神经机器翻译并有效提高了汉语-维吾尔语量词的翻译准确率。为了提高汉维机器翻译系统对时间、数字和量词短语的翻译性能,本文利用双语语料库提取汉语时间、数字和量词短语,实现了基于规则与模板、神经网络的的翻译方法。
其他文献
随着互联网的发展,越来越多的用户主动加入到互联网创造了大量的数据,比如微博数据、论坛数据、电子商务网站的评论等数据都是用户主动创造的数据。这些数据的一个共同点就是大
本文对织物染色配色问题进行了比较详细的介绍,并描述了此次建模所用的数学方法和分析过程。通过对传统的织物染色配色问题研究发现:基于Kubelka-Munk理论的织物染色配色方法费
在过去的40年里,人类阅读的机器仿真是很重要的研究方向。由于阿拉伯文字的复杂性,对阿拉伯文字自动识别的研究很少见。随着拉丁文、中文和日文在光学文本识别上的成功,光学识别
随着互联网技术的飞速发展,海量数据应用处理逐渐成为主流,而流数据系统则是其中最为典型的应用之一。作为新型的数据密集型应用,流数据具有有序实时到达,数据量接近于无限而
远程教育管理平台是西安电子科技大学网络教育学院的核心,承担着教学资源、教育活动的组织与执行等大部分功能。自2010年以来,远程教育管理平台服务的学生也越来越多,最终造成远
哈萨克语句子级别的分析技术主要包括词性标注,组块,句法分析和语义分析,现在哈萨克语处理已经进展到短语结构句法分析层面。本文主要对哈萨克语词性标注,组块和短语结构句法
随着时代的发展,手机已经成为人们生活中的必备品。3G时代的到来,智能手机越来越占据市场主流。在各种智能手机系统中,Android手机操作系统最受人青睐。该操作系统平台包含一
随着网络技术的不断发展,网络的服务能力不断的受到新的挑战。一方面在扩展性上,从只要求规模可扩展演变为在规模、安全、性能、服务、功能等的多维可扩展,另一方面,新需求的层出
近年来我们国家出台了一系列的政策加大推广普通话,越来越多的人报名参加普通话水平考试。通过对普通话水平考试现状的调查和分析,针对目前普通话水平考试面临的一些困难。于
温室环境调控是一个多输入、多输出、非线性强的控制过程,用常规的控制方法来处理有时很难获得比较理想的效果,因此,对温室的控制需要引入智能控制的方法来解决那些难以用传