论文部分内容阅读
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一。在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法。与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量。