论文部分内容阅读
自然语言处理是计算机科学领域中的一个重要研究方向,是人工智能的一个重要分支。汉语自动分词是中文信息处理的重要基石。困扰汉语自动分词发展的原因有很多,对歧义字段的排除是亟待解决的几个难题之一。本文针对汉语自动分词中的歧义字段,研究了现有排歧算法的优缺点,发现现有算法还不能完全满足实际应用的需要,有待继续研究。在此基础上提出了两种排出歧义的算法,并将两种排歧算法形成独立的模块,该功能模块应用于由本实验室自主开发的“汉语自动分词系统”中,以提高该系统的能力。为解决汉语自动分词难题提供了一种新路径。论文首先对自然语言处理作了简单介绍,提出了中文自然语言处理的特殊性,即汉语的词与词之间不像西方文字那样存在自然分隔标志,因此必须对待处理的中文文本进行自动分词。随着汉语自动分词算法研究的深入,制约其发展的几个问题便越来越受到研究者的关注,其中一大难题就是歧义的排除。论文主体部分对分词中的歧义排除算法作了研究。先介绍了交集型歧义和组合型歧义的定义及识别方法。在分析常见排歧算法的优缺点后,提出两种排除歧义的核心算法。一种是基于隐马尔科夫模型和词的二元模型排除交集型歧义的算法(HB 算法),此算法的思想结合了词的二元模型和词性的二元模型,不但解决了词性标注,还为排除交集型歧义提出了一种新方法。另一种是基于支持向量机和规则排除组合型歧义的算法(SR 算法)。SR 算法主要思想是利用支持向量机分类的原理,结合词性搭配的一些规则排除组合型歧义。拓广了SVM 的应用范围。论文最后把排出歧义字段的算法应用于实验室同组人员一起开发的中文分词中。以大量的不同类型的语料作为测试集,做了封闭式和开放式的实验,并把实验结果和中科院的分词系统作比较。实验数据表明,两种排歧算法排除歧义字段的正确率比较理想,验证了两种算法的可行性。同时,对全文的工作进行了总结,并提出进一步的研究工作。