论文部分内容阅读
随着我国国家软实力的不断增强,国际汉语教学事业正进入一个黄金发展期。词汇教学作为汉语教学的重要组成部分,始终是研究的热点内容。不容忽视的是,现有汉语词表的编制基本都立足于对词汇绝对词频的浅层次统计,因此既难以深入揭示人们真实的语用规律,也不符合人们词汇习得的客观认知规律。在此背景下,基于认知理论和数据技术,以人的词汇认知规律为准则,构建一个分级基层词库,既具有较强的理论价值,又具有现实的应用价值,且具有重要性和紧迫性。本研究运用了内容分析法、控制实验法、比较研究法、定义法、数理统计法等具体研究方法,从群体认知经验的重要载体——大规模语料入手,采用程序化、可操作化的定量分析及自然语言处理手段,力求使基层词的研究达到精细化、客观化和准确化的水平。在该词库的建设过程中,首先对性质状态类词汇在认知范畴中的层级关系加以研究,在对义类范畴和概念层级进行合理划分的基础上,立足大规模文本语料库和对“绝对词频”、“相对词频”概念的区分,通过相对词频定位法成功定位性质状态类准基层词,进而通过人工验证,提取出基层词。在对性质状态类基层词的分级中,也不再拘泥于前人所关注的“绝对词频”,而是从基层词的“语用承载量”(Pragmatical Load)、“逆文本频率指数”(Inverse Document Frequency)、“单词频-语用承载量指数”(Term Frequency-Pragmatical Load Ratio)三个维度进行研究,以保证分级结果合理兼顾基层词的“常用度”、“通用度”和“自由度”,从而建立起符合汉语学习者认知特点又层级分明的性质状态类基层词词库,以供国际汉语教学教材编写、课堂教学、成绩测试、工具书编纂等借鉴使用。此外,本研究还对基层词汇的特征进行了考察,考察内容主要包括基本词长与结构类型、自信息量与熵、语用搭配、习得顺序、词汇源流。文章最后对研究做了总结,并对性质状态类基层词库在国际汉语教学中的应用做了展望。本研究的创新点体现在:在基层词提取过程中,提出了“绝对词频”和“相对词频”一组概念,对二者进行严格区分,抛开了以往词表编制单纯以“绝对词频”为衡量标准的做法,以“相对词频”反映认知规律,从认知的角度力求贴近学习者的现实需求。在基层词分级过程中,则提出了“形式能产性”和“实际能产性”一组概念,即基于计算机文本匹配计算的能产性,和基于对枢纽词、延伸词义类范畴统一性考察的能产性,揭示出后者才是词汇能产性的客观反映。并建立了包含“语用承载量”、“逆文本频率指数”、“单词频-语用承载量指数”三个维度的词汇分级指标体系,以系统的、联系的观点看待词汇分级问题。此外本研究还创新性地实现了计算机工程若干关键技术和重要概念在语言本体研究应用的嫁接,将网页爬取技术、语料库技术、文本聚类技术、PageRank技术、数据平滑等技术和逆文本频率指数、自信息量、熵、图论等概念应用于基层词分级、验证、特征挖掘的过程中,大大提升了基层词研究的效率、科学性和客观性。本研究还对词的义类范畴与词性进行了关联研究,发现词的义类范畴和词性之间存在相对整齐的对应关系,并使这种对应关系在对词汇能产性进行判断时发挥了重要作用,与单纯以计算机文本匹配的形式计算词汇的形式能产性相比,大大提高了判断的准确率。此外,通过建立性质状态类词汇历时语用语料库,从历时的角度穷尽性地考察了性质状态类词汇的源流及发展过程,也是前人没有做过的。因此本研究具有一定的开拓性和前沿性。语料库是本研究的重要支撑。在研究过程中不以同一个语料库“包打天下”,而坚持“差异化定制语料库”的理念,分别建立了大规模文本语料库、网络文本分类语料库、性质状态类词汇历时语用语料库三个亿词级的语料库、一个千万词级的学生作文语料库和一个千万词级的语用搭配词库,使每个语料库在语料选择、数据结构、应用方式上都针对不同的具体研究需要,服务于特定的研究目标。“差异化定制语料库”的理念也成为本研究的一个重要特色。通过性质状态类基层词库的建设,在理论上立足语义层面,考察了性质状态类基层词整个群体的界定、分级、特征、搭配、习得、源流问题,对汉语词义研究及国际汉语教学中词汇教学的研究可起到一定的参考作用;在应用上面向国际汉语教学,可直接服务于语言测试、教材编写、工具书编纂等具体工作;在形式上可成为国际汉语教学与研究、共建共享数据资源平台的典型示例。因此,建设国际汉语教学中的性质状态类基层词库是满足当前国际汉语教学现实需求的一个创新思路。