论文部分内容阅读
如何区分词和短语一直是语言学中的难题。汉语中约70%以上的词是二字词,所以二字复合词和二字短语的区分更是难点。随着统计方法在语言学中的广泛运用,从频率的角度来研究词和短语的文章大大增加。但目前相关研究主要集中在词语、高频字串的提取方面,从本体角度探讨频率是否适合作为区分词和短语的标准的文章较少。本文旨在对这一问题进行探讨。如何验证频率是否适合作为区分词和短语的标准?本文提出基于超大规模语料库2-gram串统计的方法,并采取以下两种验证思路:第一,考察汉语中高频二字串是否都是由词构成,即是否频率越高二字串成词性越高;第二,考察已有比较成熟的二字串成词性层级分类结果是否与本文频率统计结果相一致,即是否二字串成词性层级越高,频率也越高。基于以上两种思路的验证,本文得出的结果是:汉语二字串的成词性和频率不必然存在“频率越高成词性越高”或“成词性层级越高频率越高”的共变关系。那么频率对二字串的成词性是否一点影响都没有呢,以及该如何进行解释?为了进一步考察频率对二字串成词性的影响,本文对二字串进行更细致的分类频率考察,包括同构槽字串“大X”频率考察、动结式“V到”和动趋式“V向”频率考察,以及同语义场——亲属义场、动物、身体义场——同构槽字串频率考察。考察得出频率对词界定的影响表现在:对于同结构、同构造槽、同语义场的二字结构短语,频率能够很好地将其作“连续统”的划分。最后,本文得出结论:“频率”不是“词”定义的应有之义,也不可直接作为界定词的标准;它在解决词和短语区分的模糊地带也不能广泛发挥作用,但对于具有较大结构和意义相似性的两个或多个同构槽字串,如“鸡蛋”和“鸭蛋”,可以作为人为区分的参考条件,以利于实际应用,如生成“词表”、词典编纂等。