论文部分内容阅读
长久以来,人们就想制造出一种具有智能的机器,它能通过自然语言与人类交流并服务于人类。计算机的出现和迅速发展为这个梦想的实现带来了希望。因此,人们迫切地需要计算机具有理解自然语言的能力,从而为具有人工智能的机器人的实现铺平道路。自然语言处理因此应运而生,成为人工智能领域的一个热门课题。人工智能就是以建立智能化的、自主的计算机为目标的一门学科,它研究的课题包括专家系统、问题求解、逻辑与不确定性问题、自然语言处理、机器人学、视觉与模式识别等。本文从事的研究是自然语言处理领域的一个基础性的课题:汉语词性自动标注。
汉语词性标注的目的是对句子中已切分的词标注上正确的词性,从而为下一步的处理提供输入。它的研究结果直接影响到语法分析、语义分析、机器翻译和信息检索等诸多领域。
词性标注方面的研究最初采用基于规则的方法进行,根据人工制定各种语言学规则标注词性,正确率并不高。后来采取基于统计的方法(机器学习)进行标注词性,正确率有了较大提高,可达到95%以上。目前基于机器学习的词性标注方法成为研究的热点,比较典型的有最大熵模型、隐马尔科夫模型、人工神经网络、决策树、支持向量机等。目前采用较多的是基于n-元语法的隐马尔科夫,一般采用二元或三元模型,但该模型存在一些先天不足。
最大熵模型在词性标注方面相对其它模型来说具有较多的优点。因此本文采用了基于改进的最大熵模型,并运用BLMVM参数估计算法,有效地提高了标注正确率和标注效率。在自然语言处理领域,由于熟语料(已标注好的语料)规模的限制,数据稀疏现象严重,模型在训练中不可避免地会出现训练过适应的问题,需要对模型进行平滑。Gaussian Prior平滑方法在众多的平滑方法中有出色的表现,适合用来平滑最大熵模型。应用最大熵模型进行词性标注的一个重要步骤是特征的选取,特征选取的好坏将对模型的标注精度产生很大的影响。本文根据汉语自身的特点,设计了基于字和词混合的特征,取得了较好的标注效果。另外,最大熵的一个优势就是在模型不变的情况下,只要发现好的特征就可以加入,而不用更改数学模型,这有利于在实际应用中根据领域特点增加不同的特征,进一步提高模型的标注正确率。
本文应用最大熵模型并根据汉语自身的特点选取有效的特征,在词性标注实验中取得了令人满意的标注结果。