论文部分内容阅读
交集型歧义切分字段是影响汉族自动分词系统精度的一个重要因素。本文引入了最大交集型歧义切分字段的概念,并将之区分为真,伪两种主要类型。考察一个约1亿字的汉语语料库,我们发现,最大交集型歧义切分字段的高频部分表现出相当强的覆盖能力及稳定性:前4,619年覆盖率为59.20%,且覆盖率受领域变化的影响不大。