论文部分内容阅读
随着计算机的发展,用自然语言作为人机交互语言已是必然趋势,这就对自然语言处理的深度和广度提出了越来越高的要求。词性标注是自然语言处理中的一项基础性题课,词性标注的正误对汉语语料库标注、机器翻译和大规模文本的信息检索等都有重要的意义。 本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。获得上下文信息的多少和数据平滑的程度是评价词性标注统计模型性能的两个重要的参数。针对以前统计模型获取上下文信息有限的缺点,给出了一种针对汉语词性标注的、扩展的完全二阶隐马尔可夫模型,该模型方法比标准的统计模型获得更多的上下文信息。同时,本文采用性能稳定的基于线性插值的平滑算法解决了三元模型严重的数据稀疏问题。由于模型获取词汇概率和词性概率参数方法的改变,相应的修改了Viterbi算法。实验证明,这种新的完全二阶隐马尔可夫模型比现有的模型更能有效地提高汉语词性标注的正确率和消歧率。