论文部分内容阅读
该文的工作紧紧围绕E-Chunk的获取与应用展开,构成一个完整的体系.在E-Chunk概念基础上,作者研究了单语Chunk获取、文本对齐、E-Chunk获取、E-Chunk在EBMT的应用等问题.该文在前人工作的基础上创造性地提出了一些新的处理技术,取得了一些研究成果,其中包括:(1)提出了E-Chunk概念.E-Chunk是一种双语语段,它是基于语义定义的,具有语义自足性、复现性、可嵌套性等特征.因为E-Chunk内含了上下文环境,用于机器翻译中可起到消歧作用.(2)提出了时间复杂度为O(n)的子串归并算法.(3)提出汉英法律文献层次结构模型.模型描述了法律文献的层次结构特征及章、条、子条的连续性和对应性.基于该模型有效地实现了汉英法律文献的翻译块自动索引和对齐,并进一步用统计方法实现了句子对齐.(4)提出基于语料库的无双语词典英汉词对齐模型.(5)提出基于词典和语料库的多层次英汉词对齐模型.(6)提出基于统计的E-Chunk获取模型.(7)提出基于英语句法分析和英汉词对齐的E-Chunk获取模型.(8)提出以E-Chunk为重组单元的EBMT模型.