论文部分内容阅读
汉语自动分词是汉语信息处理的重要分支。目前大多关于汉语自动分词的研究都是针对现代汉语的,对古汉语自动分词的研究较为薄弱。先秦典籍是了解先秦文化和历史的重要途径,《左传》则是先秦时期具有代表性的史学著作之一,因此,本文选取《左传》为研究对象,结合古汉语信息处理的特点,基于逆向最大匹配法和条件随机场模型的自动分词法对《左传》实现自动分词。本文主要进行了以下几个方面的工作:(1)设计了基于条件随机场模型的《左传》自动分词算法,包括语料选取、语料的标注、特征的选择以及特征模板的制定。本文选取了四词位的标注体系,选择了字符分类、词性、上古声、调、韵、反切、古音等特征进行CRF训练;(2)根据所设计出的基于条件随机场模型的《左传》自动分词算法进行具体的分词实验。采用CRF++0.58版本工具包,进行了不同特征和特征组合下的CRF分词实验;(3)对设计的基于条件随机场模型的《左传》自动分词算法进行测试。分别将采用逆向最大匹配算法的《左传》分词结果和未加入任何特征下的条件随机场法的分词结果设置成基准线Baseline1和Baseline2,将所有实验结果与Baseline之间进行对比分析,将不同实验结果之间进行对比分析,得出对比结果,并为今后的先秦文本自动分词工作提出建议。通过实验结果测评分析,本文得出了以下结论:(1)采用条件随机场对古汉语进行自动分词得到的分词效果要优于采用逆向最大匹配法对古汉语进行自动分词得到的分词效果,采用逆向最大匹配法对《左传》进行自动分词得到的分词F值为93.4631%,而采用条件随机场对《左传》进行自动分词得到的分词F值可达到95%以上;(2)在《左传》的自动分词中,“调”和“古音”的特征加入可以提高系统的分词切分精度,而“字符分类”、“声”、“反切”、“韵”的特征加入不但没有提高系统的分词效能,反而削弱了系统的分词效能;“词性”作为实验结果中最好的特征,它的加入大大提高了《左传》的切分精度,其分词F值能达到99%以上;(3)不能简单地认为某一特征在单一特征实验中得到的分词效果与它在多特征实验中的分词效果具有正相关关系,二者之间并不存在明显的相关性。在单一特征实验中分词结果较差的特征在组合特征实验中可以得到较好的分词结果,而在单一特征实验中分词结果较好的特征在组合特征实验中反而可以表现较差;(4)由于古汉语大多以单音节词为主,因此采用条件随机场对古汉语进行自动分词的特征模板窗口长度不宜过长,在我们所做的《左传》切分实验中,窗口长度为1的特征模板得到的分词效果最好。本文的主要贡献在于:(1)设计了一种基于条件随机场模型的《左传》自动分词法,融合了字符分类、词性、上古声、调、韵、反切、古音等多种特征,提高了分词效果;(2)在条件随机场模型的训练中,加入了不同数量的特征,全面测评了不同特征组合对分词效果的影响,对于在《左传》分词中效果较好的特征组合。我们在今后对古汉语进行自动分词时可以首先考虑加入此类特征组合,这对先秦文本自动分词具有一定启发性的意义。但是本文中作为基准线的分词方法比较单一,在进行基于词表的分词法实验中所选取的词表也较为单一。对此,在下一步工作中,我们可以采取更丰富的方法进行对照实验,同时可以采取更丰富的词表(如注疏词表)进行基于词表的分词法实验。