论文部分内容阅读
语料库语言学在1990年代得到迅速的发展。语料库语言学的要旨是让计算机从大规模真实文本语料中直接学习并自动处理语言信息。然而,原始语料的利用价值有限,如果在原始语料中预先加入一定的语言学知识,计算机就会自动获得更多的信息,并可以利用标注好的语料统计带词性的词频、同形异类词的分布等应用价值更高的数据。因此,深加工的语料库成为计算语言学的基础资源,而语料库的深加工技术也成为计算语言学的研究热点之一。在中文信息处理方面,对于汉语信息的处理应该包括有字处理和词处理、句处理、篇章处理。到目前为止,基本上还停留在“字和词处理”阶段,大多数研究成果都是基于字和词的研究,对于句子的研究尤其是汉语复句的计算机处理相对较少,因此必须逐步实现“字和词处理”阶段到“句处理”阶段的过渡。汉语的句子从结构上划分为单句和复句两大类,复句的意义容量比一般单句大,常表示人和人、事和事及人与事的逻辑意义关系。复句一般由分句构成,各分句单独从其结构上看实际上就是小句。复句是小句的联结,它下连小句,上连篇章,在单句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面的属性,在语言学中具有重要的研究意义,而复句的层次关系则从某种意义上来说是复句研究的灵魂。在研究复句层次划分和层次关系之前,首先应理清分句的结构,哪些语言片段(引入语言片段的概念,是指复句中以标点符号结尾的句子的一个部分)是真正的分句,哪些语言片段只是加了标点符号的句法成分(文中借用邢福义先生提出的“书读短语”概念,即指复句中以标点符号结尾的非分句语言片段)。本文结合语言学的相关理论,首先建立基于词性信息的明显形式标记库和形式化规则库对书读短语进行基于规则方法的自动识别。接下来,引入基于书读短语可信度计算的统计方法,结合书读短语的静态特征以及前后语境信息特征判定待测语言片段是否为书读短语。最后采用聚类分析的方法对书读短语自动识别做进一步研究。实验结果证明,基于明显形式标记库和形式化规则库的书读短语的自动识别正确率开放测试在81.6%左右:基于可信度计算的书读短语自动识别正确率开放测试在86.7%左右,提高了约5.1%;最后采用基于聚类分析的自动识别方法,进一步使识别正确率开放测试提高到89.3%左右,逐渐接近应用水平。