基于可调语言模型的机器翻译

来源 :武汉大学 | 被引量 : 0次 | 上传用户:ullige000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,人们跨入了信息爆炸的“大数据”时代。人类的大多数的知识和信息是以自然语言(文本、语音)的形式存在。面对海量的语言信息,要自动处理和挖掘里面的知识,就需要采用自然语言处理的技术。同时随着国际交流日益频繁,要打破人们信息交流中的语言障碍,机器翻译技术就是解决这一问题的利器。机器翻译的应用非常广泛,但是其翻译质量并不完美。机器翻译面临着:语义歧义、句法歧义、语序迥异、跨领域翻译等难点。本文就机器翻译和自然语言处理中存在的这些挑战,从基础的语言模型着手,提出可调的语言模型、基于类的语言模型、基于字符的语言模型和正反方向的语言模型并应用这些模型解决自然语言处理中的一些实际问题。在跨领域的机器翻译里,面对各种领域的测试集时,提出领域识别和可视化交互的方法。研究了一些特殊领域的机器翻译方法,在跨领域的机器翻译任务中提出了自适应的模型。解决了这些基本技术问题后,最后将这些方法应用于真实的、面对各种领域的机器翻译系统中。针对不同的领域,采用不同的模型和方法使机器翻译的质量得以提高。本文从以下几个方面进行研究,提出了各种模型,并在实际的自然语言处理任务和机器翻译系统中验证了所提方法的有效性。主要工作和创新点如下:1.基于可调参数折扣和多项式折扣平滑的语言模型针对训练数据的难以避免的数据稀疏问题和跨领域适应性差的问题,提出了基于可调参数折扣和多项式折扣平滑的语言模型,探索新的可调折扣机制来调整语言模型自适应到目标测试集。该语言模型和大多数模型一样在训练集上训练,但是有一个通过开发集优化折扣参数的步骤。调整最优折扣的参数的方法是通过最小化开发集的困惑度来实现的。该语言模型基于困惑度评测将在领域内和跨领域数据上进行,相比其他流行的语言模型的平滑方法,该模型困惑度评测获得相当大的改善。2.基于类、字符和正反向的语言模型目前流行的语言模型大多是基于词的n元顺序模型。但是语言中还有其他的信息:比如词的聚类、不规范语言的字符、反向的语言信息。针对这些被忽视的语言信息,提出了各种语言模型。基于类的语言模型在中文和英文平行语料库上做比较研究。平行语料使我们能够直接比较分析其困惑度和模型参数的意义。基于类的模型在中英文语料上的表现都要比基于词的模型好。同时,提出基于字符的语言模型,该模型在社交媒体等不规范语料上有广泛的应用,用情感分析评测任务的实例分析验证了基于字符语言模型的有效性。最后,语言模型是一个顺序模型,它不仅仅在正向顺序上有意义,在反向顺序上也是有意义的。基于此,提出一个正反向结合的语言模型。并用实验验证该模型的可行性和优势。3.基于可调语言模型的机器翻译框架将前面提出的可调的语言模型融入基于MOSES统计机器翻译框架。将不同的语言模型应用到包括中文、英语、德语之间互译的机器翻译任务中,这些机器翻译的测试数据的领域和训练数据的领域略有不同。各种语言模型的性能也在这几个主要测试集中得以评测。机器翻译和困惑度实验表明,可调的语言模型在不同领域中使用,表现显著优于SRILM的基线KN模型。实验结果表明,可调语言模型在同领域的情况下表现不差于基线模型,同时非常适用于跨领域的情况。4.领域自适应的机器翻译方法针对实际机器翻译系统中常常碰到的跨领域的问题。用真实的面向生物、新闻、社交媒体等各种不同领域的机器翻译实验说明跨领域机器翻译中的领域和数据问题。针对这些问题使用了主题模型相似度和领域语言模型的方法进行领域识别和文本分类,用可视化交互的方法进一步分析和完善领域数据的识别。完成了领域的识别工作后,利用对应领域的数据,训练基于领域的领域适应语言模型。在相应的领域上训练领域主题模型并进行主题模型的插值。实验在中英文机器翻译的任务上评测了基于领域自适应性模型的机器翻译系统。实验的BLEU评测结果表明领域自适应系统显著优于基线系统。从而证明了领域识别、可视化交互、领域自适应模型等方法在跨领域机器翻译中的可用性和有效性。对其他领域的翻译系统也提出了相应的改进方法并使翻译质量得到提高。最后,针对特殊的社交媒体领域机器翻译中语言不规范的问题,引出了基于字符机器翻译的方法。并应用该方法进行网络语言的规范化。
其他文献
铸就和弘扬百年革命精神离不开中国共产党的坚强领导。在建党百年之际,基于主体维度,审视百年革命精神的铸就历程,中国共产党已实现从革命精神的思想内核建立到革命精神创新化、谱系化发展再到自觉铸就革命精神的意识觉醒的深层转换,其铸就历程也呈现出三个维度的基本特点,即中国共产党的主体维度、马克思主义理论维度和中华民族特色维度。中国共产党铸就革命精神的宝贵经验也在不断充实和完善发展,这对于新时代更好地挖掘革命
在这篇论文中,我们讨论若干stit逻辑的判定问题。这些逻辑的语言中除了stit算子,还包括时态算子、历史必然算子与知识算子等。本文获得三个主要结论。第一个主要结论是以非决定论的X,Y-时态逻辑为基础的某一类逻辑的可判定性。为了得出这一结论,我们使用子模型和滤模型的方法证明该类逻辑都具有强有穷框架性。这一结论可以被应用于许多具体的逻辑,其中包含我们所关心的结合agency、时态及认知的逻辑,不过语言
第一部分:主动脉夹层与交感神经支配、活性异常相关性研究目的:探讨主动脉夹层与局部交感神经支配、全身交感神经活性之间的相关性。方法:募集主动脉夹层患者以及正常人群,记录血压、心率、呼吸节律、节后肌肉交感神经活性,血清去甲肾上腺素浓度以及年龄、性别、体重等一般数据,统计分析其差异;术中收集主动脉夹层、主动脉瓣置换患者、器官捐献者主动脉壁,免疫组织化学标记交感神经特异性酪氨酸羟化酶、生长相关蛋白43,软
差分演化算法(DE)是基于自然界生物演化原理而提出的一种启发式搜索算法,是当今众多智能算法的杰出代表。过去10年来,DE算法得到快速的发展和广泛应用。与其他的智能算法相比,DE算法具有实现简单、收敛速度快、算法鲁棒性强等突出优点。因此也受到众多研究者的青睐,其各种衍生版本屡次在有关演化计算的国际会议竞赛中获得佳绩。当前,DE算法被广泛应用于求解各类复杂的优化问题,以及诸如科学研究、工程设计、工业生
安徽省绿色矿山建设标准,遵循行业标准的基本要求,针对安徽矿业发展实际,采用开采方式合并矿种的新分类,分为露天开采金属矿绿色矿山建设要求(DB 34/T 3249-2018)、露天开采非金属矿绿色矿山建设要求(DB 34/T 3248-2018)、井采煤矿绿色矿山建设要求(DB 34/T 3247-2018)、地下开采金属矿绿色矿山建设要求(编制中)。新构建的标准体系简洁清晰,突出了采矿、选矿和生态
党的十八大以来,河南坚持以习近平新时代中国特色社会主义思想为指导,深入贯彻落实新时代党的建设总要求,在新时代党的建设实践中积累了宝贵的经验,主要体现在:必须深入贯彻党的建设新理念,必须坚持以党的政治建设为统领,必须深入贯彻"严"的主基调,必须坚持系统观念,必须坚持守正创新。
为最大限度的提高LNG气化站空温式气化器气化率,同时保证设备及其基础支墩不受LNG气化低温被冰水侵蚀爆裂冻涨变形影响运行安全。以往的空温式汽化器都是依据现有的相关经验来进行设计制造的,并且忽略了星型翅片导热管在结霜工况下对传热性能的影响,实际应用偏差较大,有些汽化量不足,影响生产,过大则造成不必要的浪费。因此如何合理设计空温式汽化器,方便工程应用是当前急需解决的问题。国内文献对此进行过不少的理论分
云计算是一种基于互联网的计算模式,能够有效整合分散在不同空间位置的计算资源,如存储、带宽等,为用户提供一个简洁统一的使用接口,因而受到业界的广泛关注与实践,如Amazon、Microsoft、IBM、Google等均推出其云计算解决方案。移动计算是通过移动设备,如智能手机、平板电脑等,进行数据处理,并通过无线网络进行数据传输的计算模式,能够随时随地获取互联网上的信息及服务,极大地改变了人们日常生活