汉语篇章零回指的解析与生成:一项基于语料的向心研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:IT_Yong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
回指是自然语言中最为常见的现象之一,因而回指解析与生成对于语篇理解和生成至关重要。零形回指在汉语语篇中应用广泛,然而解析和生成零形回指却是一项较为棘手的任务,因为汉语中的零形回指可充当各种论元角色,且先行词也可以出现于任一语法位置。到目前为止,许多学者从不同角度探讨了汉语零形回指的解析与生成方法,其中最为普遍的是从句法角度(Huang J.,1984,1989;XuL.J.,1986),语篇功能角度(Li and Thompson,1979,1981;Chen,1986;Xu J.J.,1990,2003;Tao,1993,1997;Cheng,1990;Lee,1990,1995;You,1998;Xu Y L.,1995,2004),语用角度(Huang Y,1994)以及认知角度(Tomlin and Pu,1991)。然而这些研究在很大程度上还是停留于‘解释’阶段,因而不能成为真正意义上的‘解析’与‘生成’。而且这些研究不够明晰化且应用性较弱,不太适用于计算机处理。本研究旨在推导出用于解析和生成汉语语篇零形回指的计算模型。向心理论(Centering Theory,Grosz et al.1995;Walker et al.1998,inter alia)是当前计算机语言学中用于语篇回指解析与生成的主要理论模式之一。为了验证该理论中规则和限制条件的跨语言适用性,许多学者将其应用于各种语言的回指解析与生成。其中有些学者将其应用于零形回指的解析与生成(Kameyama,1985,1986,1988,1998;Walker,Iida,and Cote,1990,1994;Mitsuko et al.,2001;Turan,1995,1998;DiEugenio,1990;Rambow,1993;Ryu,2001;Prasad,2003;Prince,1994)。然而在国内,很少有学者将向心理论应用于汉语语篇回指解析与生成。从已发表的文献中,笔者只发现两篇有关向心理论的文章。一篇是(Miao,2003),另一篇是(Wang,2004)。Miao(2003)对向心理论进行了评介,但没有将其应用于汉语语篇分析;Wang(2004)将向心理论应用于汉语语篇零形回指的解析,但他使用的算法是采用Iida(1998)的宏观模型(Global Model),而且对于许多细节问题都没有进行深入探讨。基于以上情况,本研究拟将向心理论全面而系统地应用于汉语语篇分析,从而推导出用于解析和生成汉语语篇零形回指的计算模型。本研究将向心理论作为理论框架。推导出的第一个计算模型是汉语零形回指解析模型,称为RICM(Revised Integrated Cache Model)。此模型是对Walker(1996)集成贮藏模型(Imegrated Cache Model)的改进,它吸取了Walker(1996)的‘反堆栈’(anti-stack)思想,并利用了Cheng(1990)和Lee(1990,1995)的找回原则(Recovery Principles),因为词汇语义可作为寻找指称对象的理想寻找提示语(retrieval cues)。具体来说,本研究修订了第一向心规则(或称代词规则),并制定了其他六个规则,即下指中心排序规则(the Cf Ranking rule)、下指中心提升规则一(theCf Promotion ruleⅠ)、下指中心提升规则二(the Cf Promotion ruleⅡ)、下指中心迁移规则(the Cf Transfer rule,)、下指中心删除规则(the Cf Deletion rule)以及下指中心移出规则(the Cf Displacement rule)。基于以上规则,本研究推导出汉语零形回指的解析模型和算法。与堆栈模型(Crosz and Sidner 1986)、宏观模型(Iida 1998)和贮藏模型(Walker 1996)相比,此模型的优点是既可以不求助于宏观排序列表来解析跨语段零形回指,还可以解决排序较低实体充当回指中心的问题。为了验证本解析算法的有效性,我们进行了实证研究,所采用的语料是选自《中国民间故事选粹》中的18篇短篇故事。实验结果表明,在语料中出现的所有零形回指中,95%都被本算法成功解析,因此本算法是有效可行的,因为算法的解析正确率为95%。本研究推导出的第二个计算模型是汉语零形回指生成模型。此模型将向心过渡类型(Centering Transitions)作为回指词分布的限定条件,因为过渡类型是生成回指形式的有效方法之一(Turan 1995;Kim 1999;Ryu 2000)。本研究从语料中提取出所有相关的过渡类型,并基于这些过渡类型推导出零形回指生成算法。通过语料验证,此算法的生成准确率高达96.75%,因此此算法是有效可行的。由于向心理论具有跨语言的特征,因此必须对其参数进行适当的修订,以便对汉语语篇进行应用分析。这些参数包括语段定义、语篇片段切分和下指中心集排序。语段(utterance)是语篇组织的基本单位。基于先前的定义方法(Li,1956;Hu,1981;Huang & Liao,1981;Mann and Thompson 1987;Crystal 1991;Zhu,1995;Poesio 1995;Traum & Heeman 1996;Bussmann 1996;Chu 1998;Kameyama 1998;Aronoff & Rees-Miller 2001;Song,2001;Xu,2003),本研究推导出语段的定义方法,此方法适用于汉语语篇的向心分析,因为它既符合汉语的句子特征,又便于计算机处理。语篇可切分为一个个语篇片段(discourse segrnent),但语篇片段的切分标准和方法却尚无定论。为避免出现无回指中心(Nil)和零过渡类型(NO Cb),并基于Cheng(1990)的话题连续段(topic continuity),本研究推导出适用于汉语语篇向心分析的语篇片段切分方法。此切分方法具有如下四个优点:1)能避免因过度切分而导致的过多的无回指中心和零过渡类型,因此可使较多的过渡类型参与决定回指形式的分布;2)能有效解决向心与宏观语篇结构的互动,以及将向心应用于拓展语篇等问题;3)可使可推导实体(inferables)作为后续语段指称的潜在指称对象;4)它尤其适用于汉语语篇的向心分析,因为在汉语语篇中,跨语段指称和跨段落指称较为普遍,而且零形代词、代词以及全称名词短语有时可以互换使用。不同的语言具有不同的下指中心集排序方法,且决定排序的因素在向心文献中还没有完全确定。基于Chao(1968)所提出的话题(topic)和Li & Thompson(1979)的话题显著性(topic-prominence)以及Chen(1984)的可及性排序(Accessibility Hierarchy),本研究制定出汉语下指中心排序方法。为验证此方法的可行性,本研究进行了语料实证,结果证明此方法是有效可行的。此外,本研究还探讨了促使实体突显的其他因素,如存现结构以及高意图性(highintentionality)和控制(control)的介入。为进一步提高此排序方法的全面性,本研究还就如何对复合名词短语进行排序进行了探讨。基于Tetreault(2001)的观点以及Walker and Prince(1995)、Gordonet al.(1999)和Hobbs(1978)的方法,本研究提出汉语中复合名词短语的排序方法。此方法较为折中,因而较适用于汉语语篇中对复合名词短语的有效排序。由于过渡类型的计算对于本研究,尤其是零形回指的生成至关重要,本研究对其进行了较为深入的探讨。通过结合Laurel Fais(2004)的定义和Strube andHahn(1999)的分类方法,本研究设定了18种过渡类型。这些过渡类型在分类上更为细致,且在推理努力上能保持高度的一致性,更为重要的是,它们可以有效处理为可推导下指中心设定过渡类型的问题。此外,这些过渡类型还可用于进一步提高本研究所提出的零形回指解析算法和生成算法的有效性。本研究提高了向心理论的语篇处理能力,扩大了它的应用范围。希望本研究能促进人们对语篇回指的更进一步理解,并有助于汉语自然语言的计算机处理。
其他文献
精索静脉曲张(VC)系精索静脉血液淤积导致精索静脉蔓状静脉丛扩张、伸长、迂曲改变,是引起男性不育症的重要原因之一。随着诊疗手段的增多及先进仪器的应用,部分临床体检时未被
在利率市场化条件下,商业银行在利率定价权力和定价难度加大的同时,其竞争程度加大,这种定价权力、定价难度和竞争程度的增加,都会影响商业银行的经营行为及借款企业的借款行
目的:对4个厂家铋制剂进行质量考察,其中2种是枸橼酸铋钾胶囊,2种是果胶铋胶囊,为临床合理选用铋制剂提供依据。方法:参照中国药典2000版方法,对4种铋制剂的含量、崩解时限、沉降层
多Agent协调机制研究是近年来受到广泛关注的研究方向.在这个问题的研究中,人们普遍关注的问题是如何组织协调Agent之间的关系,让各Agent充分发挥作用,使系统处于最佳状态.本
电子商务是指借助互联网,通过网上洽谈、询价、下单等,最终实现产品或服务交易的过程。农村电子商务指的是以网络系统及信息技术为支撑,以农产品的生产经营为主体,进而开展的
梳理浙江省近年医疗器械和移动医疗器械发展的基础数据,重点分析所调研的省内部分高新园区移动医疗器械发展特点及不足,并基于浙江省的政策、产业基础及监管现状,就如何更好
陶瓷文物在考古遗迹中出土的数量最多, 其包含的大量考古信息对于揭开遗址的性质具有十分重要的意义.越来越多的新技术, 在陶瓷考古中发挥着传统地层学和类型学方法不能代替
分析了海洋环境数据的特点,讨论了海洋环境数据存储的两种技术,介绍了数据库建模理论和Oracle数据库开发技术,并在此基础上设计了海洋环境数据库。将NetCDF文件存储模型应用到网
文章以审计工作为视角,对建设工程结算纠纷及影响因素进行分析,提出解决建设工程结算纠纷的审计对策,期望对有效减少工程结算纠纷有所帮助,促进建设工程顺利完工.
针对零树小波编码等常用图像压缩算法存在的压缩速度慢,压缩比小,重构复原图像效果不理想等问题,本文充分考虑人的视觉特性,结合不同方向不同尺度子带之间的相关性(横向相关),提出了