论文部分内容阅读
因为语言的多样性和计算机对语言的理解能力有限,目前的机器翻译性能与我们期待的仍有一定的差距。尤其在一些小语种上并没有大量的双语平行语料库,语料相对比较稀疏,机器翻译性能并不是很好。复述,作为解决稀疏问题的一种方法,通过引入复述来提升机器翻译的性能。其次,全局特征,往往对机器翻译的性能提升具有重要作用。非线性的神经网络模型具备更强的表达能力,而且,它通过引入隐含层,可以根据翻译的平均度量对输入层的特征进行进一步的抽象和解释,从而能够更好地利用特征来提高翻译的性能。因此,我们决定用神经网络模型来实现重排序中的判别函数,利用其全局特征、RNN语言模型特征和线性插值的方法提高翻译的性能。本课题的研讨内容有以下几个方面:(1)我们提出了一种短语划分的标准,首先对双语语料进行句法标注,将句法解析后的语料按树结构存储,抽取相应的包含名词短语和动词短语的子树作为短语划分。并且我们对不同粒度的名词短语动词短语的实验结果进行对比,针对出现的嵌套问题,对算法进行改进,解决嵌套问题,得到更精确的短语划分,准确率和召回率都可以达到80%以上。(2)我们根据词向量模型建立了短语向量模型,对短语划分后生成的短语进行短语向量表示,我们利用K-均值聚类来抽取复述,我们将抽取的复述结果应用到统计机器翻译系统中,通过修改短语翻译概率来解决训练语料库数据稀疏的问题,从实验结果中我们也可以看到,改善后的短语表可以提高机器翻译的性能,大概提高0.3BLEU值。(3)我们尝试引入了基于神经网络的统计机器翻译重排序模型。我们建立了基于一层神经网络重排序模型,给出了重排序模型的判别函数和随机共轭次梯度法的训练算法。在此基础上我们将RNN语言模型作为特征加入到我们的重排序模型中来,并使用线性插值的方法完善重排序模型,从实验结果上来看,神经网络的重排序模型可以提高机器翻译的性能。通过实验表明,使用短语向量抽取复述,利用抽取的复述来完善短语表以及引入基于神经网络的重排序模型都可以在一定程度上提高机器翻译的性能。