论文部分内容阅读
在Web环境下,中文信息处理对象由少量、规范的例句扩大到大规模、非规范的文本;中文信息处理范围由单个典型的领域扩大到多个开放的领域,这样,词典对分词精度的影响更加突出,但是,因为自动识别词典未登录词问题,基于词典的分词方法已经不能满足中文分词的要求。分词的目标是保证中高频词条、尤其是对文档主题特征起重要作用的专业词汇的正确识别。无词库分词结合上下文识别生词、自动消除歧义的优点使许多研究者和学者着手开始了基于无词库的中文分词的研究。本文首先对中文分词的基本概念、分词系统的目标、中文分词技术以及中文分词面临的难题进行了概述。接着针对中文分词技术及其发展问题,重点研究了一种基于无词库的中文分词方法即根据极大似然原则构建汉语自动分词的一阶马尔可夫模型和一种训练模型的有效算法,分析了EM(Expectation-Maximization)算法。同时给出一个无词库抽词方法即通过自增长算法获取中文文档中的汉字结合模式,以解决模型未知参数初值问题。