论文部分内容阅读
中文自动分词系统是利用计算机对中文文章进行自动分词、识别的计算机应用系统,它包括基本的自动分词方法、歧义处理和命名实体的识别等基本模块,其各部分相互依赖,共同决定该系统的质量、价值和应用水平。 中文自动分词方法分为机械分词方法和非机械分词方法。最大正向匹配法、逆向最大匹配法和逐词遍历法是三种最基本的机械分词方法。另外八种机械分词法只是在基本分词方法的基础上采用了一些技巧,它们不是纯粹意义的机械分词方法。专家系统方法是一种基于规则的分词方法,而神经元网络方法则将人工神经网络的基本原理应用于计算机汉语分词。 根据国内外对自动分词方法的研究和一些实用系统的设计,本文给出了自动分词系统的理论模型CWSM:M(F,W,T,K)的概念,即机械分词方法+分词词典+汉语言文本+知识库,并介绍了自动分词系统的评价标准。 分词过程中歧义的产生主要是由计算机分词产生的特有歧义、自然语言中的二义性歧义和由分词词库大小引起的歧义等三类组成。歧义字段可从三个方面进行分类。从分词的切分结果可分为两类:真歧义和伪歧义;从切分歧义所需的知识层次,可分为三类:语法歧义、语义歧义和语用歧义;从歧义字段的结构可分为交集型歧义字段和多义型歧义字段。交集型歧义字段的切分可采用基于统计的方法和基于规则(词性)方法。对多义型歧义字段的处理分别从句法歧义、语义歧义和语用歧义三个方面进行。 中文信息处理中,处理的最多的就是名词。特别是对专有名词的处理是中文自动分词中的又一个难点。本文分析了中文姓名中姓和名的各自特点,给出了中文姓名的自动识别技术。对地名的识别则利用知识库和规则库,采用推理机制技术进行分析;对机构名称的识别技术以高校名称为例,从其语法性质、语义特性和组织规律等特征入手,给出了高校名称识别的基本规则。同时,简要分析了机构名称与人名、地名的关系。