论文部分内容阅读
词法分析是自然语言处理中最基础、最关键的步骤。在中文信息处理领域,词法分析的一般做法是通过分词给词和短语划定边界,从而使汉语的后续处理过程跟英语等西方语言基本一致。然而,汉语中词与短语之间的界限比较模糊,许多情况下,某些语言单位就连语言学家也很难确定是语素、词还是短语。这导致实践中人工标注的分词语料存在严重的不一致性,而这种不一致性无疑会制约汉语的后续处理工作。分词语料的不一致性不仅体现在不同语料库间分词标准不同,而且同一语料库中的分词标准也存在不一致。此外,不同的自然语言处理应用对词的粒度大小也有不同的需求,单一的分词标准难以满足各种要求。因此,针对目前中文分词的不足和实际应用的需要,本文给出了一种与传统分词不同的词法分析选择,即分析词的内部结构。相比于传统的分词,分析词的内部结构能够同时获得词的边界和内部结构信息,它更加符合汉语词法与句法边界模糊的事实,解决了语料库标准不一致问题并满足了不同应用的需求。本文针对词的内部结构分析方法的研究,开展了以下几个方面的研究工作:首先,本文阐述了词内部结构分析详细的任务定义,并严格按照任务定义标注了PKU1998年1月的《人民日报》语料,将该语料的80%作为训练语料,剩余的20%作为测试语料进行研究。此外,由于还没有在PKU语料上进行词内部结构分析的相关研究,所以没有现成的评测工具可以使用。本文借鉴了句法分析的评测方法,设计了一套适合评测词的内部结构分析结果的方法。其次,提出了一种基于层叠CRF模型的词结构分析方法。该方法包括底层模型和高层模型两部分。底层模型是在识别词的内部结构之前,对汉字序列进行细粒度分词。高层模型是对经细粒度分词后的词序列使用CRF模型来识别词的内部结构。实验结果表明,该方法对词结构的识别取得了较高的准确率,总体性能达到了实用水平。最后,提出了一种利用扩展标记集来实现词结构分析的方法。核心思想是将词结构中的前缀和后缀作为特殊词位来识别,通过识别前后缀来识别词的内部结构。与基于层叠CRF模型的词结构分析方法相比,该方法克服了细粒度分词所带来的错误传递。实验证明,相比于基于层叠CRF模型的词结构分析结果,该方法进行词结构分析的整体性能有所提高。