论文部分内容阅读
随着互联网的高速发展,人们跨入了信息爆炸的“大数据”时代。人类的大多数的知识和信息是以自然语言(文本、语音)的形式存在。面对海量的语言信息,要自动处理和挖掘里面的知识,就需要采用自然语言处理的技术。同时随着国际交流日益频繁,要打破人们信息交流中的语言障碍,机器翻译技术就是解决这一问题的利器。机器翻译的应用非常广泛,但是其翻译质量并不完美。机器翻译面临着:语义歧义、句法歧义、语序迥异、跨领域翻译等难点。本文就机器翻译和自然语言处理中存在的这些挑战,从基础的语言模型着手,提出可调的语言模型、基于类的语言模型、基于字符的语言模型和正反方向的语言模型并应用这些模型解决自然语言处理中的一些实际问题。在跨领域的机器翻译里,面对各种领域的测试集时,提出领域识别和可视化交互的方法。研究了一些特殊领域的机器翻译方法,在跨领域的机器翻译任务中提出了自适应的模型。解决了这些基本技术问题后,最后将这些方法应用于真实的、面对各种领域的机器翻译系统中。针对不同的领域,采用不同的模型和方法使机器翻译的质量得以提高。本文从以下几个方面进行研究,提出了各种模型,并在实际的自然语言处理任务和机器翻译系统中验证了所提方法的有效性。主要工作和创新点如下:1.基于可调参数折扣和多项式折扣平滑的语言模型针对训练数据的难以避免的数据稀疏问题和跨领域适应性差的问题,提出了基于可调参数折扣和多项式折扣平滑的语言模型,探索新的可调折扣机制来调整语言模型自适应到目标测试集。该语言模型和大多数模型一样在训练集上训练,但是有一个通过开发集优化折扣参数的步骤。调整最优折扣的参数的方法是通过最小化开发集的困惑度来实现的。该语言模型基于困惑度评测将在领域内和跨领域数据上进行,相比其他流行的语言模型的平滑方法,该模型困惑度评测获得相当大的改善。2.基于类、字符和正反向的语言模型目前流行的语言模型大多是基于词的n元顺序模型。但是语言中还有其他的信息:比如词的聚类、不规范语言的字符、反向的语言信息。针对这些被忽视的语言信息,提出了各种语言模型。基于类的语言模型在中文和英文平行语料库上做比较研究。平行语料使我们能够直接比较分析其困惑度和模型参数的意义。基于类的模型在中英文语料上的表现都要比基于词的模型好。同时,提出基于字符的语言模型,该模型在社交媒体等不规范语料上有广泛的应用,用情感分析评测任务的实例分析验证了基于字符语言模型的有效性。最后,语言模型是一个顺序模型,它不仅仅在正向顺序上有意义,在反向顺序上也是有意义的。基于此,提出一个正反向结合的语言模型。并用实验验证该模型的可行性和优势。3.基于可调语言模型的机器翻译框架将前面提出的可调的语言模型融入基于MOSES统计机器翻译框架。将不同的语言模型应用到包括中文、英语、德语之间互译的机器翻译任务中,这些机器翻译的测试数据的领域和训练数据的领域略有不同。各种语言模型的性能也在这几个主要测试集中得以评测。机器翻译和困惑度实验表明,可调的语言模型在不同领域中使用,表现显著优于SRILM的基线KN模型。实验结果表明,可调语言模型在同领域的情况下表现不差于基线模型,同时非常适用于跨领域的情况。4.领域自适应的机器翻译方法针对实际机器翻译系统中常常碰到的跨领域的问题。用真实的面向生物、新闻、社交媒体等各种不同领域的机器翻译实验说明跨领域机器翻译中的领域和数据问题。针对这些问题使用了主题模型相似度和领域语言模型的方法进行领域识别和文本分类,用可视化交互的方法进一步分析和完善领域数据的识别。完成了领域的识别工作后,利用对应领域的数据,训练基于领域的领域适应语言模型。在相应的领域上训练领域主题模型并进行主题模型的插值。实验在中英文机器翻译的任务上评测了基于领域自适应性模型的机器翻译系统。实验的BLEU评测结果表明领域自适应系统显著优于基线系统。从而证明了领域识别、可视化交互、领域自适应模型等方法在跨领域机器翻译中的可用性和有效性。对其他领域的翻译系统也提出了相应的改进方法并使翻译质量得到提高。最后,针对特殊的社交媒体领域机器翻译中语言不规范的问题,引出了基于字符机器翻译的方法。并应用该方法进行网络语言的规范化。