论文部分内容阅读
近几年来,随着中国信息产业的发展,汉语自动分词已经成为中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键所在。从目前能得到的结果看,汉语自动分词的算法数量不下几十种,但归结起来,不外乎两种方式:一种是智能切分,另一种是机械切分。智能切分是以基于符号规则的人工智能为基础的,也可以称为基于规则的分词方法,这种方法复杂程度高,实现难度大,难以将各种语言信息组织成机器可以直接读取的形式,因此目前智能切分系统还处在试验阶段;机械式切分复杂程度低,易于实现,但对歧义字段和未登陆词的切分常常出现错误,而且切分正确率和速度与词表的规模有密切的关系。汉语的词法约束很不规范,而且千变万化,给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,所以它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域,所以受到人们的广泛关注。最大熵方法是建立统计语言模型的一种有效的方法,具有较强的知识表达能力。最大熵模型可以控制细微特征,具有可重用性,简单易于理解等优点,作为一种统计方法被有效的应用。它的缺点是训练速度非常慢,耗资源。在这篇论文当中,首先介绍了汉语自动分词通常所采用的分词技术,最大熵模型的基本原理、参数估计和特征选择算法,通过分析比较特征选择算法,提出了改进的方法,提高特征选择的速度。论文的核心工作是设计并实现了一个基于最大熵模型的汉语分词系统。系统包括预处理,模型训练,命名实体识别,词性标注等功能模块。最后通过实验验证了系统的性能,与其它分词系统相比,取得了较好的分词效率和分词精度。本文针对分词技术现有的发展和最大熵的模型特点,完成如下工作:(1)研究最大熵模型的原理,及其在特征选择和参数估计中所用的相应算法。(2)特征选取:实际上最大熵模型本身不涉及特征的选择问题,因为它只是确定一个合适的概率模型。但特征空间一般都比较大,如何选择冗余少的,有代表性的特征对模型的训练和使用很重要。针对上述问题,本文提出改进的特征选择算法。(3)系统构建:本文基于最大熵模型建立了一个中文分词系统,使用语料库进行最大熵模型的训练,并对文本进行词性标注,最终得到文本的分词结果。在系统构建的过程当中,采用先进行命名实体识别,然后再进行文本分词的方法,最后的实验表明,采用这种方式,分词效果良好。