论文部分内容阅读
近年来,随着计算机的普及与信息化的发展,中文信息处理技术的应用日益广泛,中文自动分词技术是中文信息处理的基础,已应用在文本校对、机器翻译、文本分类、自动摘要、信息检索、计算机人机接口等诸多领域。本文在对传统的中文自动分词系统及主要分词技术研究的基础上,做了多方改进,完成了一个实用、高效的分词系统原型。本课题主要对中文自动分词关键技术:自动分词方法、歧义字段的处理方法以及命名实体的计算机自动识别方法等技术进行了分析和研究。本文所做的主要工作如下:1.针对易引起歧义的特征词,提出了一种对特征词的特殊处理方法,对每个特征词创建了相应的规则,构造了针对特征词的规则库,利用特征词的规则库进行初步切分,这样不但提高了切分速度,且解决了部分歧义问题。2.针对传统的正向最大匹配算法的缺陷,对该算法进行了改进,在匹配的过程中根据已经扫描过的词来确定是否继续匹配下去,动态的确定要匹配的长度,这样不但减少了平均匹配操作的次数,不受词长的限制,充分体现了“长词优先”的原则,且提高了切分的速度。3.针对歧义的处理,采用了多步分层消除歧义技术,首先在粗分割模块利用特征词消除了一部分歧义,还存在歧义的字段在最后的歧义消除模块利用长词优先及右规约技术进行消歧,使切分结果正确率进一步提高。4.词典的设计方面,为了适合切分算法,因算法要频繁查询一个字串是否为一个词的前缀,因此把词典中的词划分为两类:真正意义上的词与词的前缀,这样更有利于切分过程的查询,进一步提高了切分的速度。5.对文本中的出现的命名实体如中外人名、地名、机构名、时间和数字等未登录词,分析它们的特点,设计了相应的识别方法。经过大量的实验表明:本文实现的中文自动分词原型具有较高的切分速度,平均达到了195,601汉字/秒,同时在切分的准确率方面达到了98.08%,可见系统有较好的性能。