论文部分内容阅读
在基于短语的统计机器翻译中,短语表是解码器工作的核心部分,它主要包含了源端和目标端短语的翻译概率和词汇互译概率;但传统的短语表数量庞大,并且领域自适应能力差。为了在解码过程中挑选出更高质量的短语对.适当减少内存消耗和缩小解码空间,本文介绍了一个简单易行的基于主题模型的统计机器翻译系统的实现:首先使用LDA工具建立主题模型,然后把主题模型信息嵌入到短语表中,最后为解码器设计一个预处理模块可以使解码器不需要改变就可以在翻译过程中根据主题选择合适的短语对,从而提高了翻译的效率和质量。