论文部分内容阅读
随着 Internet 上中文网页的急剧增加和中文电子出版物的迅速普及,以非受限文本为主要对象的中文自然语言处理的重要性越来越受到人们的关注。而“词”又是自然语言处理系统中重要的知识载体与基本操作单元,由于在书面汉语中词与词之间没有英文中类似空格的明显切分标志,汉语言自动分词这一研究领域应运而生。
汉语分词的任务,通俗地说,就是由机器在中文文本中词与词之间加上空格,为其后续工作如词性标注、语法语义分析等做准备。自动分词问题的最终突破将对许多研究领域产生实质性的影响:如中文文本的自动检索、过滤、分类及摘要;中文文本的自动校对;机器翻译;汉字识别与汉语语言识别的后处理等等。
目前,国内公开报道过的分词方法主要有: 1)基于词典、词库匹配法,如最大匹配法、逐词匹配法、并行分词法等等;2)语义分词法,如综合匹配法、语法分析法等;本文采用人工智能的方法,具体来说,是用人工神经网络技术来建立分词模型。人工神经网络(ANN)是一个高度复杂的非线性动力学系统,它由大量的同时也是简单的处理单元(或称神经元)广泛连接而成,它反映了人脑的若干特性,对人脑功能作了某种简化、抽象和模拟。本文采用的是神经网络经典算法—BP 算法,在诺依曼体系机上模拟人工神经网络建立分词模型,并给出了实验分析。
凡事皆有两面,BP 算法本身也存在着一些固有的缺陷:1)BP 学习算法的收敛速度慢,通常需要上千次甚至更多次迭代来训练;2)从数学角度看,BP学习过程是一阶非线性梯度优化问题,因此不可避免的会遇到优化过程中最常见的局部极小问题,使学习效果偏离最佳值;3)网络隐层数以及隐层节点数目的选取尚无理论指导,完全凭经验指定。
鉴于此,在第三章介绍了分词模型的改进算法,提出用遗传算法来优化神经网络结构,遗传算法是一种模拟生物界自然选择和自然遗传机制的高度并行、随机、自适应优化搜索算法。具有隐含的并行性和对全局信息的有效利用能力,使它只需搜索少数结构就能反映搜索空间的大量区域。利用群体的适应值信息,通过简单的复制、杂交和变异算子,遗传算法能以很大的概率找到全局最优解,从而从整体上提升自动分词模型的性能。在论文的后部,针对歧义问题给出了基于神经网络的消歧算法。同时也对未登录词进行了相应的处理,以期提高分词的准确率。