中文自动分词系统的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hello199228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词系统是利用计算机对中文文章进行自动分词、识别的计算机应用系统,它包括基本的自动分词方法、歧义处理和命名实体的识别等基本模块,其各部分相互依赖,共同决定该系统的质量、价值和应用水平。 中文自动分词方法分为机械分词方法和非机械分词方法。最大正向匹配法、逆向最大匹配法和逐词遍历法是三种最基本的机械分词方法。另外八种机械分词法只是在基本分词方法的基础上采用了一些技巧,它们不是纯粹意义的机械分词方法。专家系统方法是一种基于规则的分词方法,而神经元网络方法则将人工神经网络的基本原理应用于计算机汉语分词。 根据国内外对自动分词方法的研究和一些实用系统的设计,本文给出了自动分词系统的理论模型CWSM:M(F,W,T,K)的概念,即机械分词方法+分词词典+汉语言文本+知识库,并介绍了自动分词系统的评价标准。 分词过程中歧义的产生主要是由计算机分词产生的特有歧义、自然语言中的二义性歧义和由分词词库大小引起的歧义等三类组成。歧义字段可从三个方面进行分类。从分词的切分结果可分为两类:真歧义和伪歧义;从切分歧义所需的知识层次,可分为三类:语法歧义、语义歧义和语用歧义;从歧义字段的结构可分为交集型歧义字段和多义型歧义字段。交集型歧义字段的切分可采用基于统计的方法和基于规则(词性)方法。对多义型歧义字段的处理分别从句法歧义、语义歧义和语用歧义三个方面进行。 中文信息处理中,处理的最多的就是名词。特别是对专有名词的处理是中文自动分词中的又一个难点。本文分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别技术。对地名的识别则利用知识库和规则库,采用推理机制技术进行分析;对机构名称的识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。同时,简要分析了机构名称与人名、地名的关系。
其他文献
无尺度网络研究正渗透到数理学科、生命学科和工程学科等众多不同的领域,对于无尺度网络的定量与定性特征的科学理解已成为网络时代科学研究中一个极具重要的挑战性课题。在
随着网络通信技术的快速发展,网络开始承载越来越多的应用服务,这对网络的服务质量、流量控制和网络管理均提出了很高的要求。对流量的分析与预测是网络管理和性能分析的基础,本
检测技术是对事物进行量性分析的手段,是人们认识和研究事物的重要方法。随着社会和科学的不断发展,研究对象的不断扩大,分工的日益细化深化、交叉学科和边沿学科的诞生,对检
近年来,快速发展的无线通信技术和计算机网络大大推动了无线传感器网络(Wireless Sensor Network,简称WSN)在实际生活中应用的快速普及。WSN集成了无线通信以及嵌入式等技术,
近年来,我国教育信息化建设步伐加快,教育信息化水平不断提高。一方面,教育管理信息化建设的范围不断扩大,已涵盖各级各类学校;另一方面,教育信息化的领域不断延伸,已覆盖了
龙芯2E处理器是中国科学院计算技术研究所于2006年研制成功,具有自主知识产权的64位高性能通用RISC处理器。BIOS虽然体积很小,但是它负责开机自检,板级初始化,以及加载操作系
P2P网络从诞生至今一直都是学术领域研究的热点,在它的发展过程中其拓扑结构一共经历了从中心拓扑结构到全分布式非结构化拓扑结构,再到全分布式结构化拓扑结构,最后到半分布
随着信息技术的发展和市政管网建设的规模扩大,很多管网建设单位都建设了自己的市政管网管理系统来提高自己的效率,由于设计施工单位众多,且地域上相互重叠,导致很多单位知道
物流管理系统是借助计算机来简化工作强度,使工作人员可以更方便管理企业商品的软件。建立一个完善的物流管理系统,可以实现企业管理的智能化,提高工作效率,减少管理人员的工作量
Agent与多Agent技术是一种有效解决复杂分布式系统问题的方法。本文将Agent与多Agent理论用于洪水预报系统的研究,重点研究分析系统的体系结构、基于BP-GA混合算法的预报模型