论文部分内容阅读
本文通过对大规模语料的考察与分析,得到了离合词作为一种较为特殊的语言形式在文本中的出现情况及其插入成分的规律,对这些规律进行了总结,获得了离合词的组配模式,没有得到组配模式的离合词则人工写出了它们的插入规则。在此基础上,设计了一个规则和统计相结合的算法,对离合词标注进行了封闭测试和开放测试,开放测试的结果:正确率81.74%,召回率98.27%。 全文共分六个部分: 第一部分:引言。界定了有关离合词的一些概念,确定了该选题的目标和方法,指出本研究的价值和意义,并综述了离合词在语言学界和自然语言信息处理学界的研究现状和地位,以及从中得到的一些启示。说明了本研究所使用的语料。 第二部分:离合词标注的难度分析。从语料中我们对离合词的情况有了大致的了解,对语料进行了初步处理,得到离合词的例句,进行了统计分析。根据例句指出了离合词研究中的困难和有利之处。 第三部分:离合词插入规则的获得和分析。这一部分是确定算法的基础。我们总结了组配模式,根据模式从大量离合词例句获得了一些有效的规则以及其他数据,也为了弥补数据稀疏的不足,人工总结了一部分离合词的规则。 第四部分:基于数据和规则的算法及其在标注中的应用。这一部分是本研究的核心工作,使用前面所获得的数据和规则确定了标注离合词的算法,对算法进行了描述。分别使用训练语料和测试语料进行了封闭测试和开放测试,并在标注过程中对算法做了一些调整。 第五部分:标注结果的报告和分析。展示了封闭测试和开放测试的标注结果和部分标注实例,并对标注结果进行了综合分析和对比分析,分析了标注中的典型错误,总结了本项研究的难点。 第六部分:结束语。对本研究工作进行了全面的总结,提出了研究工作中的一些不足,提出下一步工作中需要提高的方面。 该研究在自然语言信息处理方面有一定的资料价值和算法上的参考价值,实验结果还有提高的可能,以后可以继续研究。