论文部分内容阅读
词语和汉字是对外汉语教学的重点和难点部分之一。教哪些词语才能让学生真正感到“学有所用”;学哪些字,才更有利于配合词语的学习和理解,需要语言学研究对字词语做出定量统计和定性分析后,给教学提供指导。本文的研究目标是面向对外汉语教学,展开基于中国主流报纸动态流通语料库(DCC—Dynamic Circulating Corpus)的1万通用词语用字研究及字词语关系考察。本文建立了“通用词语用字等级数据库”、“通用字词关系数据库”2个主数据库和4个子数据库,并与现有的多种字表和词表作了对比分析。希望能给对外汉语教学的字词语配合教学提供宏观的参考资源。汉字作为汉语的书写系统,其实用特征应该结合汉字所记录词语的使用情况。本文提出“字用度”这个新概念,正是通过汉字所记录词语的使用情况来反映汉字的实用特征,可作为汉字在字用属性考察方面的一个参考指标。当前,语言信息处理领域为了找到提高分词精确度的突破口,也越来越多地关注字词语之间的关系,本文的研究也可同时为机器“学习”字词语关系提供更多的内容。本文主要做了以下工作:(1)根据通用度参数,结合对外汉语教学需要,对基于DCC的1万通用词语进行了五个等级的划分;并与2005年主流报纸词语频度表和HSK词汇等级大纲等词表做了对比分析。(2)基于通用词语表得出“通用词语用字表”,共2249字,建立了“通用词语用字等级数据库”,并与2001—2005年中国主流报纸字频并集表、HSK汉字等级大纲、《现代汉语常用字表》及《现代汉语通用字表》等字表进行了对比分析;提出“字用度”作为衡量汉字实用特征的一个新指标。(3)建立了“通用字词关系数据库”,共18798条记录,以此作为考察字词语关系的平台。(4)通过“通用字词关系数据库”,建立了4个子数据库:“多词性词语数据库”、“单字构词等级分布数据库”、“单字构词位置统计数据库”、“单字构词词性统计数据库”,在这4个数据库中,分别进行了多项字词语关系考察。本文的创新性有:(1)本文界定了基于DCC的“通用词语用字”,首次对02-06年长达5年的报纸语料(总字数达11亿1千3百3拾余万字)的通用词语及其用字,进行大规模的关系分析和统计。不同于以往现代汉语常用字和通用字的研究,本文的“通用词语用字”研究更关注于“词语”作为“字”研究的出发点和归结点,并对它们之间的关系做出考察,能为汉语教学和机器“学习”提供更多的宏观参考资源。(2)本文提出“字用度”这一新概念作为衡量汉字实用特征的指标,把汉字的实用特征与其所记录词语的使用情况结合起来,能客观地反映汉字的字用属性,是对汉字定量研究工作的新深化和新贡献。(3)本文设计的“通用词语用字等级数据库”和“通用字词关系数据库”等数据库,可直接为对外汉语教学大纲修订和教材编写所用,成为对外汉语教学动态的字、词、语储备资源。(4)基于DCC的通用词语用字研究及字词语关系考察作为平面媒体的探索性实验工作,研究方法可以推广到广播、电视和网络等媒体中。本文基于现有语料进行的是5年共时的考察分析,目前只是探索性的工作,研究结果受到一些限制,有待扩大语料范围进一步验证。因此,作为下一步的研究工作,我们需要继续跟踪字词语的变化,即时追加研究语料,进行共时的考察和历时的比较,真正实现数据库的动态研究,从而使我们的研究成果更具有代表性。