汉语标点句统计分析

来源 :北京语言大学 | 被引量 : 9次 | 上传用户:zl9881123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代汉语标点符号是在古代中的“句读”及其它符号的基础之上,在“五四”时期借鉴西文标点符号逐步发展建立起来的。标点符号的使用使人们在学习过程中摆脱了断句之苦,给阅读、写作带来了极大的方便。然而,作为现代书面语重要有机组成部分的标点符号在自然语言处理中并没有得到充分的重视。中文信息处理中句处理是个难点,现在还没有任何一种句法分析技术能够高效、准确、全自动地分析不受限制的自然语言文本。面对句处理中的难点,我们以标点符号作为切入点,把标点句作为计算机文本处理的基本单位,希望以此为汉语句处理提供新的视角。本文主要做了以下的工作:第一、提出了汉语标点句语料库标注的原则,设计了汉语标点句的标注体系。该体系的特点是标注部分与原文分开,可视性强,可扩充性强,能自动转化成树形结构。第二、对7千多标点句共8万多字的语料进行了标注。标注内容包括标点句内词组功能、句法结构以及标点句之间的成份共享关系。其中标点句之间的成分共享标注是其他语料库所没有的。第三、对标注的语料进行了统计分析,涉及四个方面:(1)标点句字长、词长及分布特点,标点的使用情况;(2)标点句的词组功能模式,包括词组功能模式的种类及其分布,高频模式的长度分布,其前后标点的分布;(3)标点句的句法结构模式,包括标点句句法结构模式的种类及分布,不同句法结构模式的长度分布;还统计分析了被标点分隔的主谓、定中、状中、述宾、述补结构情况,包括出现的频次,被标点分隔两部分的长度及分布、两部分所在标点句的句法特点等;对介宾结构标点句及时间标点句的特点进行了分析;(4)标点句句法结构模式与语体的关系,对不同语体(论说文、叙事文)的标点句长度,句法结构模式进行了统计分析。在大量统计分析的基础上,我们发现了汉语标点句的一些特点:汉语标点句与完整的句子很不相同,标点分隔的不一定是完整的句法结构;标点虽然主要出现在单句之间和单句首层的主谓结构之间,但有大量的情况出现在深层嵌套的句法结构中;一个词串能否成为一个标点句,主要与长度、句法功能类型、在句点句中的位置、词性、具体词性质及语体有关;述宾之间有标点主要与述语的动词性质有关,表陈述或表述义的句宾动词与宾语之间才能有标点;介宾之后有标点也与介词自身有关,如“把、由、比、将、往、朝、连”等介宾之后一般不能有标点;在叙述文中连词、时间词、插入语单独做标点句的多,而政论性文章中状语后带标点的情况多。
其他文献
目的:探讨椎弓根螺钉内固定并经伤椎椎弓根植骨治疗胸腰椎骨折的临床治疗效果。方法:采用病例回顾分析,应用椎弓根螺钉内固定并经伤椎椎弓根植骨治疗胸腰段脊柱骨折21例,比较
本文首先较为详细地介绍了美国《国内收入法典》中关于税收评定的基本规定,并针对我国现行《税收征管法》中纳税评估规定的缺陷,提出在修订该法时应明确评定、检查、征收、举
规则是指规定出来供大家共同遵守的制度或章程,是约束人们行为的规范。规则普遍存在于现实社会的诸多领域。规则的制定和实施会影响到人们利益的实现。规则存在着显规则和潜
近10年,我国工程项目管理领域经历了一次信息化建设的热潮,工程项目管理信息管理也取得了长足的发展,但同时也存在几个比较突出的问题,包括:项目参与各方的硬件系统配置不平
医学院校大学生的法制精神培育是医学教育体系中的一个重要组成部分。但目前我国医学院校的法律教育仍存在着一些问题。本文提出应通过明确医学院校法制教育的目标;加强医学
将项目教学法运用在中职英语课堂,有利于培养中职学生英语学习兴趣,提高学习效率。在中职英语课堂运用项目教学法,要明确每个单元的教学目标,注重模块中项目内容的选取,精心
目的:观察心痛舒含药血清预处理对缺氧/复氧乳鼠心肌细胞的NF-κBp65(nuclear factor-κBp65)及其活化后调控的炎症因子TNF-α、IL-1β的影响,探讨心痛舒通过抑制乳鼠心肌细胞
面对日新月异且复杂多端的媒体选择,广告主要考虑怎样使用并优化组合各种媒介平台,以什么方式发布品牌及产品信息,从而提高、巩固该品牌在消费者心目中的形象并促进销售。201
对外汉语教学是一项关乎国家和民族未来的事业。我国从50年代开始实施规模化、制度化的对外汉语教学至今,对外汉语教学事业已经度过了50多个春秋。作为增进国与国之间联系的
三音节词语进入学术界的研究视野,直至形成研究热潮并延续至今,成果涉及语音研究、内部结构研究、语义构成研究和修辞研究等诸多方面,前辈学者在三音节词语研究领域所取得的