论文部分内容阅读
为解瘊二字短语扩充词表带来的歧义切分大幅增加问题,我们对扩收的二字短语进行了凝固度的分级,我们首先考究验证了已曾提出过的各种标准和方法。考究证明,结构类型、“成分字替换率”、“前后接歧义度”与凝固度密切相关,也与接续类型(A/BC~AB/C)密切相关。其中,定中、状中、述宾三类结构以前字为基准的后字替换率有特别价值,该频率的字组多为A/BC型接续,其他字组多为AB/C型接续,在此基础上,我们提出了二字短语扩充词表的分级方案和具体的分级排歧策略。