论文部分内容阅读
汉语分词粒度对统计机器翻译系统性能影响深远。在专利文献中存在着大量的专业术语,适当的专业术语分词粒度,可有效提高统计机器翻译系统性能。为了提高机器翻译性能,本文提出一种规则与统计相结合的方法抽取专利文献中的专业术语,使用词语粘连度对抽取的专业术语的粒度进行控制,实现专业术语的多粒度分词效果。实验结果表明,提出方法可有效调控专业术语的分词粒度,防止专业术语颗粒过大造成的过拟合现象,降低统计机器翻译结果中未登录词的数量,提高翻译质量。