论文部分内容阅读
回指是自然语言中最为常见的现象之一,因而回指解析与生成对于语篇理解和生成至关重要。零形回指在汉语语篇中应用广泛,然而解析和生成零形回指却是一项较为棘手的任务,因为汉语中的零形回指可充当各种论元角色,且先行词也可以出现于任一语法位置。到目前为止,许多学者从不同角度探讨了汉语零形回指的解析与生成方法,其中最为普遍的是从句法角度(Huang J.,1984,1989;XuL.J.,1986),语篇功能角度(Li and Thompson,1979,1981;Chen,1986;Xu J.J.,1990,2003;Tao,1993,1997;Cheng,1990;Lee,1990,1995;You,1998;Xu Y L.,1995,2004),语用角度(Huang Y,1994)以及认知角度(Tomlin and Pu,1991)。然而这些研究在很大程度上还是停留于‘解释’阶段,因而不能成为真正意义上的‘解析’与‘生成’。而且这些研究不够明晰化且应用性较弱,不太适用于计算机处理。本研究旨在推导出用于解析和生成汉语语篇零形回指的计算模型。向心理论(Centering Theory,Grosz et al.1995;Walker et al.1998,inter alia)是当前计算机语言学中用于语篇回指解析与生成的主要理论模式之一。为了验证该理论中规则和限制条件的跨语言适用性,许多学者将其应用于各种语言的回指解析与生成。其中有些学者将其应用于零形回指的解析与生成(Kameyama,1985,1986,1988,1998;Walker,Iida,and Cote,1990,1994;Mitsuko et al.,2001;Turan,1995,1998;DiEugenio,1990;Rambow,1993;Ryu,2001;Prasad,2003;Prince,1994)。然而在国内,很少有学者将向心理论应用于汉语语篇回指解析与生成。从已发表的文献中,笔者只发现两篇有关向心理论的文章。一篇是(Miao,2003),另一篇是(Wang,2004)。Miao(2003)对向心理论进行了评介,但没有将其应用于汉语语篇分析;Wang(2004)将向心理论应用于汉语语篇零形回指的解析,但他使用的算法是采用Iida(1998)的宏观模型(Global Model),而且对于许多细节问题都没有进行深入探讨。基于以上情况,本研究拟将向心理论全面而系统地应用于汉语语篇分析,从而推导出用于解析和生成汉语语篇零形回指的计算模型。本研究将向心理论作为理论框架。推导出的第一个计算模型是汉语零形回指解析模型,称为RICM(Revised Integrated Cache Model)。此模型是对Walker(1996)集成贮藏模型(Imegrated Cache Model)的改进,它吸取了Walker(1996)的‘反堆栈’(anti-stack)思想,并利用了Cheng(1990)和Lee(1990,1995)的找回原则(Recovery Principles),因为词汇语义可作为寻找指称对象的理想寻找提示语(retrieval cues)。具体来说,本研究修订了第一向心规则(或称代词规则),并制定了其他六个规则,即下指中心排序规则(the Cf Ranking rule)、下指中心提升规则一(theCf Promotion ruleⅠ)、下指中心提升规则二(the Cf Promotion ruleⅡ)、下指中心迁移规则(the Cf Transfer rule,)、下指中心删除规则(the Cf Deletion rule)以及下指中心移出规则(the Cf Displacement rule)。基于以上规则,本研究推导出汉语零形回指的解析模型和算法。与堆栈模型(Crosz and Sidner 1986)、宏观模型(Iida 1998)和贮藏模型(Walker 1996)相比,此模型的优点是既可以不求助于宏观排序列表来解析跨语段零形回指,还可以解决排序较低实体充当回指中心的问题。为了验证本解析算法的有效性,我们进行了实证研究,所采用的语料是选自《中国民间故事选粹》中的18篇短篇故事。实验结果表明,在语料中出现的所有零形回指中,95%都被本算法成功解析,因此本算法是有效可行的,因为算法的解析正确率为95%。本研究推导出的第二个计算模型是汉语零形回指生成模型。此模型将向心过渡类型(Centering Transitions)作为回指词分布的限定条件,因为过渡类型是生成回指形式的有效方法之一(Turan 1995;Kim 1999;Ryu 2000)。本研究从语料中提取出所有相关的过渡类型,并基于这些过渡类型推导出零形回指生成算法。通过语料验证,此算法的生成准确率高达96.75%,因此此算法是有效可行的。由于向心理论具有跨语言的特征,因此必须对其参数进行适当的修订,以便对汉语语篇进行应用分析。这些参数包括语段定义、语篇片段切分和下指中心集排序。语段(utterance)是语篇组织的基本单位。基于先前的定义方法(Li,1956;Hu,1981;Huang & Liao,1981;Mann and Thompson 1987;Crystal 1991;Zhu,1995;Poesio 1995;Traum & Heeman 1996;Bussmann 1996;Chu 1998;Kameyama 1998;Aronoff & Rees-Miller 2001;Song,2001;Xu,2003),本研究推导出语段的定义方法,此方法适用于汉语语篇的向心分析,因为它既符合汉语的句子特征,又便于计算机处理。语篇可切分为一个个语篇片段(discourse segrnent),但语篇片段的切分标准和方法却尚无定论。为避免出现无回指中心(Nil)和零过渡类型(NO Cb),并基于Cheng(1990)的话题连续段(topic continuity),本研究推导出适用于汉语语篇向心分析的语篇片段切分方法。此切分方法具有如下四个优点:1)能避免因过度切分而导致的过多的无回指中心和零过渡类型,因此可使较多的过渡类型参与决定回指形式的分布;2)能有效解决向心与宏观语篇结构的互动,以及将向心应用于拓展语篇等问题;3)可使可推导实体(inferables)作为后续语段指称的潜在指称对象;4)它尤其适用于汉语语篇的向心分析,因为在汉语语篇中,跨语段指称和跨段落指称较为普遍,而且零形代词、代词以及全称名词短语有时可以互换使用。不同的语言具有不同的下指中心集排序方法,且决定排序的因素在向心文献中还没有完全确定。基于Chao(1968)所提出的话题(topic)和Li & Thompson(1979)的话题显著性(topic-prominence)以及Chen(1984)的可及性排序(Accessibility Hierarchy),本研究制定出汉语下指中心排序方法。为验证此方法的可行性,本研究进行了语料实证,结果证明此方法是有效可行的。此外,本研究还探讨了促使实体突显的其他因素,如存现结构以及高意图性(highintentionality)和控制(control)的介入。为进一步提高此排序方法的全面性,本研究还就如何对复合名词短语进行排序进行了探讨。基于Tetreault(2001)的观点以及Walker and Prince(1995)、Gordonet al.(1999)和Hobbs(1978)的方法,本研究提出汉语中复合名词短语的排序方法。此方法较为折中,因而较适用于汉语语篇中对复合名词短语的有效排序。由于过渡类型的计算对于本研究,尤其是零形回指的生成至关重要,本研究对其进行了较为深入的探讨。通过结合Laurel Fais(2004)的定义和Strube andHahn(1999)的分类方法,本研究设定了18种过渡类型。这些过渡类型在分类上更为细致,且在推理努力上能保持高度的一致性,更为重要的是,它们可以有效处理为可推导下指中心设定过渡类型的问题。此外,这些过渡类型还可用于进一步提高本研究所提出的零形回指解析算法和生成算法的有效性。本研究提高了向心理论的语篇处理能力,扩大了它的应用范围。希望本研究能促进人们对语篇回指的更进一步理解,并有助于汉语自然语言的计算机处理。