论文部分内容阅读
词是最小的能独立运用的语言单位,然而汉语不同于西方语言的一个显著特点是文本中词与词之间没有显式的分隔标记。中文分词是是中文信息处理的基础,在搜索引擎、机器翻译、文本分类等中文信息处理的各项任务中首要做的工作都是中文分词。当今的中文分词方法主要可分为三类:机械分词法;语义分词法和人工智能分词方法。近些年来,中文分词研究取得了一定的进展,但是目前较为成熟的技术都是机械式的分词系统,也就是说都需要大量的人力建立一个人工词典,并随时进行词典的维护。这样浪费了大量的人力,并且难以很好的解决未登录词的识别问题。本文分析了现有分词解决方案的优势和不足,提出一种基于机器学习的中文分词方法,并实现了机器学习分词模型系统。系统采用机器学习方法为基本框架建自动分词模型,不借助人工词典,设计了机器学习分词系统的四个模块,为每一个模块选择合适的算法并对针对分词系统性能的需要对算法进行了优化。采用N-gram语言模型,运用EM算法迭代地训练模型,优化模型参数。为了进一步提高模型性能,防止EM固有的局部最优问题,本文研究并使用了基于互信息的算法进行词典修剪。考虑到互信息能更好地反映两个字之间的耦合性,对字符串进行划分时,用基于字符间的互信息的方法代替了最大似然估计方法,并且通过多次实验合理的设置了阈值,使得修剪率大大提高,从而使机器建立的词典具有高效性。切分过程系统利用改进正向最大匹配算法,提高了分词切分效率。本文研究并实现了基于机器学习的分词系统。实验结果表明,所提出的方法通过机器学模型成功的让计算机独立建立了一个分词词典,切分以后得到较高的准确性,准确率达到90.81%,分词速度平均达到了12000字/秒以上,即有较为满意的分词性能,并在解决歧义处理和未登录词识别问题中能够获得满意的结果。