论文部分内容阅读
由中科院声学所黄曾阳研究员创立的HNC(Hierarchical Network ofConcepts)理论是自然语言理解处理领域的重要理论,它以概念联想脉络为主导,建立了自然语言表述和处理的新模式。其模式之一是自然语言语句的表述模式,句类和语义块理论是该模式的主要内容。句类是语句的语义结构类型,语义块是语句的语义构成单位。语义块的整体或局部可以由句子蜕化而来,称为句蜕,它是语义块的特殊构成。句蜕之间或句蜕与其他成分之间的嵌套或组合以及句蜕内部语义块的复杂变化等形成复杂句蜕,包含复杂句蜕的语义块称为复杂句蜕块。HNC的语言理解处理模式称为句类分析,语义块构成分析是句类分析基本内容之一,而复杂句蜕块的分析是语义块构成分析的一大难点。 从对语料的分析入手,在对HNC理论和语言学研究关于句蜕现象的认识进行比较的基础上,对复杂句蜕块现象归纳出不同的细类,并对每种类型进行深入分析,并用统计的方法得到句蜕块及复杂句蜕块的分布数据,观察它们的出现情况,在此基础上,结合HNC的句类分析技术,提出复杂句蜕块处理的基本策略,这是本文的研究思路。其中,对复杂句蜕块的分析是本文研究的重点,也是难点。在研究过程中,主要采用了归纳分析的方法和统计的方法,部分运用了演绎的方法。 本文的主要研究内容就是复杂句蜕块分析,具体包括以下四个方面,这也是本文的主要贡献: (1)阐述了复杂句蜕块的定义和范围,并总结了语言学对句蜕块及复杂句蜕块这种语言现象的研究。 (2)基于对真实语料的分析,给出了复杂句蜕块的三种类型的子类,并对各种类型进行了详细的研究。语义块的三种类型是:语义块=包装句蜕、语义块=变形句蜕和语义块=句蜕嵌套。其中,第一,对包装句蜕中包装成分的语义类型进行了详细的研究,并辨析了易混淆的前包装成分与语义块分离、包装句蜕和要素句蜕;第二,分析了变形句蜕的三种类型:伴随语义块分离的变形句蜕,伴随句类转换的变形句蜕和伴随语义块并合的变形句蜕;对三种情况进行了详细的研究;第三,把句蜕嵌套划分成三个大类,在三个大类下面又归纳出子类,对每种子类都进行了分析。 (3)依据从人民日报、参考消息、光明日报等报纸杂志中抽取出来的部分真实文本(约150000字,叙述体),统计了句蜕现象在文本中的出现情况:含句蜕语义块有4420各,占语义块总数(15273个)的28.94%;含句蜕语串有2207个,占语串总数(6967个)的31.68%,说明了研究句蜕现象的重要性。在含句蜕语义块中,得到了各类型句蜕的分布情况;并统计得到了复杂句蜕块类型之一的句蜕嵌套类型下面各子类的分布数据,为HNC句类分析系统制定适当的句蜕处理策略提供了依据。 (4)在简要介绍HNC句类分析技术的基础上,讨论了各类复杂句蜕块的处理策略,提出了各类型复杂句蜕块处理的大致思路。 (2)和(3)是本文所做的主要工作,也是本文的创新之处。(2)是详细划分出了复杂句蜕块三种类型的子类,并对各子类进行了分析研究,其中对包装句蜕包装成分的语义类型的研究尤其深入,对句蜕块嵌套的子类划分及分析尚属首次。(3)是第一次得到了句蜕块及复杂句蜕块各类的分布数据,使我们对句蜕现象有了清晰的认识。因此,本文的研究将加深人们对句蜕现象的认识,并推进HNC理论对句蜕和复杂句蜕的研究,对复杂句蜕块的深入分析也将为HNC句类分析技术制定句蜕处理策略提供理论依据,并丰富现代汉语在句子和短语层面的研究。 但由于时间所限及笔者能力上的欠缺,本文还存在一些问题尚未解决,其中包括对复杂句蜕块子类的更深入分析、对复杂句蜕块在不同文体中的分布的认识以及对复杂句蜕块的详细处理策略的研究等。