论文部分内容阅读
汉语自动分词是中文信息处理领域的基础课题,也是中文信息处理发展的瓶颈之一,其中对中文分词规范的研究,即如何确定一个汉字串是否为词,是分词的首要问题。虽然国内外许多研究人员在歧义切分、未登录词这些领域进行了深入的研究,但针对分词规范的研究很少,而这个问题也一直是中文分词的基础难题,一直困扰着中文分词的进展。 本文针对中文分词规范的科学性进行了深入研究,并对中文分词规范的两个方面:完备性和一致性,进行了深入的研究。在可计算化方面,本文在对国家规范进行详细的研究分析的基础上,将分词规范进行可计算的实现。同时通过查找语料库不一致的切分单位,并从中挖掘出一些经验准则。最后通过实验使用可计算的规范规则对语料进行测试和分析。在分析方面,本文就分词系统在使用分词规范的规则后的精度,与不使用规则的分词方法进行了全面的比较,再指出了分词规范的重要性和价值。