论文部分内容阅读
机器翻译实现过程中会涉及到形态自动分析方法、各种句法分析、语义分析等分析方法,是机器翻译译文质量的关键环节。
形态自动分析
形态自动分析主要包括词例还原、词目还原、词性标注和词性消歧四步骤。
词例还原是指自动分割出一个句子当中所有的单词。英文中,词与词之间一般会有空格隔开,分割并非难事。如果是汉语,词例还原用自动分词方法即可。通过词例还原以后,句子当中符号串变成词例串,便利了形态分析过程。
词目还原是把词的变体形式还原成单词词典存储形式。这里词目是指变体形式单词,例如把复数形式单词还原成单数形式(如translators- translator),把动词的过去式或进行式改回动词原形(如translated-translate),把形容词的比较级改为没有比较级时候形式(如easier-easy)。
词性标注是指为每个单词指派一个词类或词汇类别进行标记。词性标注与词目还原均是形态分析最重要内容,同时词性标注在语音识别技术与信息检索技术中发挥重要作用。
词性标注难度大,歧义单词较多。值得庆幸的是,40%歧义单词可以消除歧义。词性消歧是指消除词的歧义性,具体是指词多义性,多时态性。
自动句法分析
自动句法分析方法很多,例如基于上下文无关语法、基于特征结构、基于依存语法、基于转移网络等,简要介绍一下基于转移网络自动句法分析。
转移网络主要包括递归转移网络和扩充转移网络两种。由于语言中嵌套结构比较复杂,有限状态转移网络难以处理这种情况,所以必须对有限状态转移网络做一些改进,便出现了递归性转移网络。递归性网络是有限转移网络扩充来的,是把单个弧用一个弧串表示,再用子网络表示这个弧串。然后通过子网络的名称来调用并遍历此弧串,从而变成递归性网络。递归性转移网络自身局限性是该网路不能处理好词序调整问题。有时候源语言与目标语言的词序恰好相反,例如源语言修饰词在前,但是目标语言的修饰词在后,这时候必须要把相应修饰词对应起来,这样一来在网络一侧分析源语言的修饰词,在网络另一侧还要生成对应目标语言的修饰词。显然,这要增加弧才能处理这个问题,如果修饰词不止一个,那么递归性网络分析变得很复杂。其实解决这个问题关键在于对源语言前置修饰词翻译的时候,对所修饰的名词进行翻译成目标语言所对应名词之后,把翻译的修饰词置于目标语言名词之后。
语义自动分析
语义分析法有很多,例如句法驱动语义分析、浅层语义分析、语义语法等。语义分析通常分为四个步骤:把词的一阶谓词验算表达式附着至树形图的词汇单元之上;把树形图无分叉子树子女节点上语义值复制给父母节点;把类似函数的一个表达式附着至句子中心动词之上,然后用该表达式处理此动词的一个或者多个子女节点;将带有逻辑量词的表达式用复杂项处理,并将处理的表达式作为一个单独项处理。
句法驱动语义分析是基于组成性原则方法,弗雷格认为:句子的含义可以是句子几个部分意义组合而成。即句子由词组成,各个单词的含义组合当然是句子代表的意义。值得思考的是,一个句子含义不仅依赖各个词的含义,还与词的顺序以及词与词之间的关系有关,与句法结构有关。所以从句法角度驱动语义分析,是该分析法基本依据,大致流程是:对输入句子经过剖析器进行句法分析,把结果作为语义分析器输入,经过语义分析器后便把其结果作为输出。该过程被称为“管道流方法”。句法驱动语义分析用到组成性原则时候,语义组成成分应和句法组成成分匹配。
语用自动分析
语用自动分析中语用指的是语言和使用所处环境之间的关系。这里使用所处环境包括话语上下文、人和物。其涉及到话语结构、听话者如何理解话语对象以及语言指示或者回指人和物的内容。语用分析主要有所指判定和文本连贯的分析方法。
所指判定是对所指语判定所指对象过程。一般句子与句子之间均存在某种关联,并非孤立存在的,而有时候靠单独句子根本不能理解所指对象。例如“Tim told Tom that he had passed the examination”的he是指Tim还是指Tom?无法判定。如果前面有语句“Tom was worried about his examination”,则可以断定he是指Tom。一般采用折半加权算法来判定代词所指对象,具体过程为:(1)搜集所有可能所指对象;(2)排除和代词在数、性不一致和句内句法同指约束的所指对象;(3)把话语模型在更新阶段计算的显著值和使用角色平行和提前指代的代词显著权重值相加,并计算所指对象总的显著值;(4)选择显著值最高所指对象作为最终代词指代对象。如果有显著值相同则选择靠的最近(指字符串位置)所指对象作为最终代词指代对象。
溯因推理既然是基于不可靠推理,那么就需要找出一种最佳解释。一种策略是基于概率模型,通过计算相关概率参数来选出最佳解释,不过概率模型前提需要一些事件语料库,否则会出问题。另一种策略是基于启发式策略。把假设数目最少的作为最佳解释,也可以把最具体的输入特征作为最佳解释。第三种策略是基于概率模型和启发式策略的混合策略。文本连贯中计算机模型构建十分重要,但现有推理方法难以覆盖范围更广的应用领域,有待进一步研究。
(作者单位:辽宁省机电工程学校)
形态自动分析
形态自动分析主要包括词例还原、词目还原、词性标注和词性消歧四步骤。
词例还原是指自动分割出一个句子当中所有的单词。英文中,词与词之间一般会有空格隔开,分割并非难事。如果是汉语,词例还原用自动分词方法即可。通过词例还原以后,句子当中符号串变成词例串,便利了形态分析过程。
词目还原是把词的变体形式还原成单词词典存储形式。这里词目是指变体形式单词,例如把复数形式单词还原成单数形式(如translators- translator),把动词的过去式或进行式改回动词原形(如translated-translate),把形容词的比较级改为没有比较级时候形式(如easier-easy)。
词性标注是指为每个单词指派一个词类或词汇类别进行标记。词性标注与词目还原均是形态分析最重要内容,同时词性标注在语音识别技术与信息检索技术中发挥重要作用。
词性标注难度大,歧义单词较多。值得庆幸的是,40%歧义单词可以消除歧义。词性消歧是指消除词的歧义性,具体是指词多义性,多时态性。
自动句法分析
自动句法分析方法很多,例如基于上下文无关语法、基于特征结构、基于依存语法、基于转移网络等,简要介绍一下基于转移网络自动句法分析。
转移网络主要包括递归转移网络和扩充转移网络两种。由于语言中嵌套结构比较复杂,有限状态转移网络难以处理这种情况,所以必须对有限状态转移网络做一些改进,便出现了递归性转移网络。递归性网络是有限转移网络扩充来的,是把单个弧用一个弧串表示,再用子网络表示这个弧串。然后通过子网络的名称来调用并遍历此弧串,从而变成递归性网络。递归性转移网络自身局限性是该网路不能处理好词序调整问题。有时候源语言与目标语言的词序恰好相反,例如源语言修饰词在前,但是目标语言的修饰词在后,这时候必须要把相应修饰词对应起来,这样一来在网络一侧分析源语言的修饰词,在网络另一侧还要生成对应目标语言的修饰词。显然,这要增加弧才能处理这个问题,如果修饰词不止一个,那么递归性网络分析变得很复杂。其实解决这个问题关键在于对源语言前置修饰词翻译的时候,对所修饰的名词进行翻译成目标语言所对应名词之后,把翻译的修饰词置于目标语言名词之后。
语义自动分析
语义分析法有很多,例如句法驱动语义分析、浅层语义分析、语义语法等。语义分析通常分为四个步骤:把词的一阶谓词验算表达式附着至树形图的词汇单元之上;把树形图无分叉子树子女节点上语义值复制给父母节点;把类似函数的一个表达式附着至句子中心动词之上,然后用该表达式处理此动词的一个或者多个子女节点;将带有逻辑量词的表达式用复杂项处理,并将处理的表达式作为一个单独项处理。
句法驱动语义分析是基于组成性原则方法,弗雷格认为:句子的含义可以是句子几个部分意义组合而成。即句子由词组成,各个单词的含义组合当然是句子代表的意义。值得思考的是,一个句子含义不仅依赖各个词的含义,还与词的顺序以及词与词之间的关系有关,与句法结构有关。所以从句法角度驱动语义分析,是该分析法基本依据,大致流程是:对输入句子经过剖析器进行句法分析,把结果作为语义分析器输入,经过语义分析器后便把其结果作为输出。该过程被称为“管道流方法”。句法驱动语义分析用到组成性原则时候,语义组成成分应和句法组成成分匹配。
语用自动分析
语用自动分析中语用指的是语言和使用所处环境之间的关系。这里使用所处环境包括话语上下文、人和物。其涉及到话语结构、听话者如何理解话语对象以及语言指示或者回指人和物的内容。语用分析主要有所指判定和文本连贯的分析方法。
所指判定是对所指语判定所指对象过程。一般句子与句子之间均存在某种关联,并非孤立存在的,而有时候靠单独句子根本不能理解所指对象。例如“Tim told Tom that he had passed the examination”的he是指Tim还是指Tom?无法判定。如果前面有语句“Tom was worried about his examination”,则可以断定he是指Tom。一般采用折半加权算法来判定代词所指对象,具体过程为:(1)搜集所有可能所指对象;(2)排除和代词在数、性不一致和句内句法同指约束的所指对象;(3)把话语模型在更新阶段计算的显著值和使用角色平行和提前指代的代词显著权重值相加,并计算所指对象总的显著值;(4)选择显著值最高所指对象作为最终代词指代对象。如果有显著值相同则选择靠的最近(指字符串位置)所指对象作为最终代词指代对象。
溯因推理既然是基于不可靠推理,那么就需要找出一种最佳解释。一种策略是基于概率模型,通过计算相关概率参数来选出最佳解释,不过概率模型前提需要一些事件语料库,否则会出问题。另一种策略是基于启发式策略。把假设数目最少的作为最佳解释,也可以把最具体的输入特征作为最佳解释。第三种策略是基于概率模型和启发式策略的混合策略。文本连贯中计算机模型构建十分重要,但现有推理方法难以覆盖范围更广的应用领域,有待进一步研究。
(作者单位:辽宁省机电工程学校)