论文部分内容阅读
现代汉语标点符号是在古代中的“句读”及其它符号的基础之上,在“五四”时期借鉴西文标点符号逐步发展建立起来的。标点符号的使用使人们在学习过程中摆脱了断句之苦,给阅读、写作带来了极大的方便。然而,作为现代书面语重要有机组成部分的标点符号在自然语言处理中并没有得到充分的重视。中文信息处理中句处理是个难点,现在还没有任何一种句法分析技术能够高效、准确、全自动地分析不受限制的自然语言文本。面对句处理中的难点,我们以标点符号作为切入点,把标点句作为计算机文本处理的基本单位,希望以此为汉语句处理提供新的视角。本文主要做了以下的工作:第一、提出了汉语标点句语料库标注的原则,设计了汉语标点句的标注体系。该体系的特点是标注部分与原文分开,可视性强,可扩充性强,能自动转化成树形结构。第二、对7千多标点句共8万多字的语料进行了标注。标注内容包括标点句内词组功能、句法结构以及标点句之间的成份共享关系。其中标点句之间的成分共享标注是其他语料库所没有的。第三、对标注的语料进行了统计分析,涉及四个方面:(1)标点句字长、词长及分布特点,标点的使用情况;(2)标点句的词组功能模式,包括词组功能模式的种类及其分布,高频模式的长度分布,其前后标点的分布;(3)标点句的句法结构模式,包括标点句句法结构模式的种类及分布,不同句法结构模式的长度分布;还统计分析了被标点分隔的主谓、定中、状中、述宾、述补结构情况,包括出现的频次,被标点分隔两部分的长度及分布、两部分所在标点句的句法特点等;对介宾结构标点句及时间标点句的特点进行了分析;(4)标点句句法结构模式与语体的关系,对不同语体(论说文、叙事文)的标点句长度,句法结构模式进行了统计分析。在大量统计分析的基础上,我们发现了汉语标点句的一些特点:汉语标点句与完整的句子很不相同,标点分隔的不一定是完整的句法结构;标点虽然主要出现在单句之间和单句首层的主谓结构之间,但有大量的情况出现在深层嵌套的句法结构中;一个词串能否成为一个标点句,主要与长度、句法功能类型、在句点句中的位置、词性、具体词性质及语体有关;述宾之间有标点主要与述语的动词性质有关,表陈述或表述义的句宾动词与宾语之间才能有标点;介宾之后有标点也与介词自身有关,如“把、由、比、将、往、朝、连”等介宾之后一般不能有标点;在叙述文中连词、时间词、插入语单独做标点句的多,而政论性文章中状语后带标点的情况多。