论文部分内容阅读
近年来,随着国民经济信息化的不断发展以及Internet的普及,中文信息处理技术的应用日益广泛,如搜索引擎、自动翻译、语音识别、信息检索、自动分类、自动文摘、文本的自动校对以及数据挖掘等方面。在中文中,词是最小的语言单位。由于汉语的书写习惯,中文语句中词与词之间的标志是隐含的,因此将词确定下来是中文信息处理的第一步。中文分词,是指把一个汉字序列切分成一个词序列的过程。
从20世纪80年代开始至今,经过几十年的研究,中文分词的研究已经取得了长足的进展并出现了众多的算法。根据其特点,可以将现有的中文分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。一般来说,只使用一种分词方法很难达到让人满意的效果,将多种不同的方法结合起来,优势互补,相对来讲会得到更好的分词结果。
本文主要对几种常见的分词方法进行了研究,包括正向最大匹配算法、逆向最大匹配算法、最短路径算法和N-最短路径算法。通过对这几种中文分词算法的研究和分析,提出了一种改进的最短路径算法——无需词图的最短路径算法。并在非统计模型的基础上引入了词频信息,建立了更实用的统计模型。针对来自SIGHAN主办的第二届国际中文语言处理竞赛中北京大学语料库(共计19056个句子)和微软亚洲研究院语料库(共计86924个句子),进行了实验。在非统计模型中,无需词图的最短路径算法在北京大学语料库和微软亚洲研究院语料库上的正确率分别为81.20%和76.86%;在统计模型中,无需词图的最短路径算法在北京大学语料库和微软亚洲研究院语料库上的正确率分别为86.90%和86.13%。对比实验表明,无需词图的最短路径算法能够达到基于词图的最短路径算法的分词正确率,且运行速度更快。另外,本文还将无需词图的思想应用到N-最短路径算法中。
除此之外,设计与实现了一个集成多个中文自动分词算法的中文自动分词系统,包括正向最大匹配算法、逆向最大匹配算法、最短路径算法和N-最短路径算法,另外还包括本文改进的最短路径算法——无需词图的最短路径算法。