词和短语区分的频率因素

被引量 : 0次 | 上传用户:ljmldblh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何区分词和短语一直是语言学中的难题。汉语中约70%以上的词是二字词,所以二字复合词和二字短语的区分更是难点。随着统计方法在语言学中的广泛运用,从频率的角度来研究词和短语的文章大大增加。但目前相关研究主要集中在词语、高频字串的提取方面,从本体角度探讨频率是否适合作为区分词和短语的标准的文章较少。本文旨在对这一问题进行探讨。如何验证频率是否适合作为区分词和短语的标准?本文提出基于超大规模语料库2-gram串统计的方法,并采取以下两种验证思路:第一,考察汉语中高频二字串是否都是由词构成,即是否频率越高二字串成词性越高;第二,考察已有比较成熟的二字串成词性层级分类结果是否与本文频率统计结果相一致,即是否二字串成词性层级越高,频率也越高。基于以上两种思路的验证,本文得出的结果是:汉语二字串的成词性和频率不必然存在“频率越高成词性越高”或“成词性层级越高频率越高”的共变关系。那么频率对二字串的成词性是否一点影响都没有呢,以及该如何进行解释?为了进一步考察频率对二字串成词性的影响,本文对二字串进行更细致的分类频率考察,包括同构槽字串“大X”频率考察、动结式“V到”和动趋式“V向”频率考察,以及同语义场——亲属义场、动物、身体义场——同构槽字串频率考察。考察得出频率对词界定的影响表现在:对于同结构、同构造槽、同语义场的二字结构短语,频率能够很好地将其作“连续统”的划分。最后,本文得出结论:“频率”不是“词”定义的应有之义,也不可直接作为界定词的标准;它在解决词和短语区分的模糊地带也不能广泛发挥作用,但对于具有较大结构和意义相似性的两个或多个同构槽字串,如“鸡蛋”和“鸭蛋”,可以作为人为区分的参考条件,以利于实际应用,如生成“词表”、词典编纂等。
其他文献
本文以某桥梁工程为例,对双导梁架桥机架设组合梁现拼段钢梁的施工技术进行分析,发现使用双导梁架桥机进行组合梁现拼段钢梁的架设施工,不仅能够有效控制施工成本、提升施工
致谢是学位论文写作中不可或缺的一部分,它不仅为作者提供了一个感谢他人帮助的平台,也是一个展现学术能力与社会身份的机会。然而,致谢这种体裁在学术英语(EAP)领域中长期受到忽
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
10月21日,中国计算机用户协会二十五周年庆典暨2008中国计算机和电子信息应用发展大会在北京隆重召开,来自包括工业和信息化部、国家发改委、科技部在内的各大部委信息中心、80
随着大学英语教育的改革和发展,教育部于2004年颁布了《大学英语课程教学要求》,要求各大高校建立了网络中心,培养学生自主学习能力,实现传统教学模式向现代教学模式的转变。然而
一、国有企业亏损的原因 根据经济理论界和企业界人士的分析,认为导致国有企业亏损的外在因素主要有以下几点: 
鄢福初艺术简介鄢福初,1963年10月出生,湖南新化人。现任湖南省政协常委、中国书法家协会会员、湖南省书法家协会副主席、娄底市书法家协会主席、娄底市人民政府副市长。1988
论文题目:《俄语词重音研究》,该论文由六部分组成,其结构如下:1)引言,2)俄语词及其重音的基本特点,3)俄语词重音的分布,4)俄语词重音的位移,5)结束语,6)附录。各部分主要内容归纳如下:在引
刺五加主要分布在中国北部地区,是补中益气的上好中草药。它具有抗疲劳、抗衰老、抗菌、抗炎、增强免疫力和抗肿瘤等作用。刺五加苷和刺五加多糖是刺五加抗肿瘤的主要成分。