论文部分内容阅读
该文重点讨论了两个问题:首先,现存的版式描述语言多种多样,同时在不断更新换代,因此处理手段应该具有通用性和可扩充性.作者们通过对流行版式描述语言的分析,找出了它们的共性,把对具体版式描述语言的依赖性限制在局部,较好的实现了系统的通用性.其次,作者们提出了原译文版式信息一致性的定义.版式信息常常会切断语义连续的句子,而机器翻译需要语义完整的输入.同时由于原译文词序的变化,追踪原文版式信息的译文中的位置不是简单直接的.作者们通过利用文本缓冲来拼合完整句子,以及利用从机器翻译获得的原译文结构信息来进行版式信息恢复,使这个两难的问题得到了较好的解决.