面向中文信息处理的汉语复句中书读短语的自动识别研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:lnld123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库语言学在1990年代得到迅速的发展。语料库语言学的要旨是让计算机从大规模真实文本语料中直接学习并自动处理语言信息。然而,原始语料的利用价值有限,如果在原始语料中预先加入一定的语言学知识,计算机就会自动获得更多的信息,并可以利用标注好的语料统计带词性的词频、同形异类词的分布等应用价值更高的数据。因此,深加工的语料库成为计算语言学的基础资源,而语料库的深加工技术也成为计算语言学的研究热点之一。在中文信息处理方面,对于汉语信息的处理应该包括有字处理和词处理、句处理、篇章处理。到目前为止,基本上还停留在“字和词处理”阶段,大多数研究成果都是基于字和词的研究,对于句子的研究尤其是汉语复句的计算机处理相对较少,因此必须逐步实现“字和词处理”阶段到“句处理”阶段的过渡。汉语的句子从结构上划分为单句和复句两大类,复句的意义容量比一般单句大,常表示人和人、事和事及人与事的逻辑意义关系。复句一般由分句构成,各分句单独从其结构上看实际上就是小句。复句是小句的联结,它下连小句,上连篇章,在单句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面的属性,在语言学中具有重要的研究意义,而复句的层次关系则从某种意义上来说是复句研究的灵魂。在研究复句层次划分和层次关系之前,首先应理清分句的结构,哪些语言片段(引入语言片段的概念,是指复句中以标点符号结尾的句子的一个部分)是真正的分句,哪些语言片段只是加了标点符号的句法成分(文中借用邢福义先生提出的“书读短语”概念,即指复句中以标点符号结尾的非分句语言片段)。本文结合语言学的相关理论,首先建立基于词性信息的明显形式标记库和形式化规则库对书读短语进行基于规则方法的自动识别。接下来,引入基于书读短语可信度计算的统计方法,结合书读短语的静态特征以及前后语境信息特征判定待测语言片段是否为书读短语。最后采用聚类分析的方法对书读短语自动识别做进一步研究。实验结果证明,基于明显形式标记库和形式化规则库的书读短语的自动识别正确率开放测试在81.6%左右:基于可信度计算的书读短语自动识别正确率开放测试在86.7%左右,提高了约5.1%;最后采用基于聚类分析的自动识别方法,进一步使识别正确率开放测试提高到89.3%左右,逐渐接近应用水平。
其他文献
近年来,我国对网络科技资源管理领域的投入逐步加大,取得了举世瞩目的成绩。为了进一步提高网络科技资源的利用率,降低网络科技资源管理的成本,我国提出了建设“国家科技基础条件
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度
本文尝试从流程管理和内部控制相结合的角度阐述如何通过加强流程管理来促进企业内部控制,来帮助企业恰当、有效、安全的配置资源,从而更好地达成企业的目标。全文共分为四个主
智能规划已经成为人工智能研究的热点,尤其是基于概率方法的不确定规划算法和对可创建删除对象规划算法的研究。概率方法定量的刻画了现实世界中的不确定性,更适合于求解现实
传输控制协议(TCP)被广泛应用于有线网络中。作为传输层协议,它提供端到端的可靠传输服务,被公认为是有线网络中一种很有效的传输层解决方案。拥塞控制是TCP协议研究的一个热
序列模式挖掘中,类Apriori算法通常与Apriori性质相关联:序列模式中,若子序列非空,则为频繁模式。Apriori性质具有反单调性,利用这种性质可以剪裁搜索空间。然而,序列模式挖掘
随着互联网信息及用户的飞速增长,如何有效减少用户访问延时,提高网络服务质量是一个迫切需要解决的难题,缓存与预取技术是克服此难题的有效方法。但由于随着WWW上动态内容和
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互(Human MachineInteraction,HCI)技术已成为当前计算机科学领域一个十分活跃的研究课题。情感计算的研究对于
客户关系管理(Customer Relationship Management, CRM)对于企业掌握客户需求是十分重要的,它能够帮助企业掌握客户的需求内容及需求趋势,加强与客户的合作关系,有效地挖掘和
随着互联网的迅速发展,网络攻击事件越来越多,网络安全评估已经成为当今网络安全领域研究的热点和难点之一。网络安全评估可以在网络遭受攻击前对网络的安全性状况进行预测,并给