语文词汇定量研究:现状和可资利用的成果

来源 :语文建设 | 被引量 : 0次 | 上传用户:Rainwave
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  汉语词汇教学目标能够量化,已是一个不争的事实。
  自1898年德国语言学家F.W.凯丁出版第一部根据统计材料编成的《德语频率词典》以来,各国语言学家、教育家都十分重视编写频率词典,从频率的高低来确定常用词,推进词汇的教学,提高学习效率。如美国的教育家兼心理学家E.L.桑代克对英语词汇的频率做了大量的统计工作,在此基础上编写了《教师两万词词书》和《教师三万词词书》。后来人们又在此基础上将常用词分为最低限度词汇、常用词汇、次常用词汇、一般常用词汇等几个等级,供教学选用,把词汇教学纳入科学的轨道。
  汉语常用字词的研究,要说早则早矣。
  周宣王时的太史籀,为了教学童,编《史籀篇》。秦朝李斯、赵高和胡毋敬又各自取材于《史籀篇》,改籀文为秦篆,分别编了《仓颉篇》《爰历篇》《博学篇》。汉代的民间先生又将这三部字书合并,题名为“仓颉篇”。此后汉武帝时司马相如编《凡将篇》,元帝时史游编《急就篇》,成帝时李长编《元尚篇》。它们开我国集中识字学词教学之先河。到后来大量涌现的诸如《千字文》《三字经》《百家姓》等蒙童韵语识字课本,其编写方法无不是脱胎于前者。《千字文》选择了1000个字,都是古书上常用的,基本上没有生僻字,只有个别字重复。《三字经》是1140字,用的都是极常见的字,讲的都是极通俗浅显的名物事理,用字有一定的重复。《百家姓》是568字,字数少,所列的字大多是儿童很容易理解的普通常见的姓,有个别复姓中的用字重复。三本书合起来,总字数是2708个,除去重复的字不算,单字是1426个。从字种比例看,“三、百、千”有73.67%的字是现代汉语常用字,有10.61%是现代汉语次常用字,两项合起来,有84.27%的字在我们常说的3500个常用字范围内。单从字种比例看,“三、百、千”即使在今天仍然不失为优秀的识字课本。如果把这些蒙童韵语读物看成我国古代语文教育工作者在母语字词教学方面的数量范围追求的有益尝试的话,我国母语词汇教学量化实践的历史可谓长矣。
  当然,科学意义的词汇目标量化工作是要建立在词频统计工作基础上的。
  我国第一部汉语频率字典是陈鹤琴在1928年编成的《语体文应用字汇》,他分析了554478个词,得出4261个常用字。但这还不是严格意义上的频率词典。
  对汉语词汇频率的统计研究,最早应算《普通话三千常用词表》。该词表为郑林曦先生所编,初稿本出版于1959年,收词3624个,增订本出版于1987年,收词3996个。这是我国第一本按汉语语法分词类排列的常用词表,原本主要是供学习普通话、编写普通话课本、读物时参考的。从学习者、使用者的反应来看,该词表确实收到了较好的社会效果。不过,该词表无论是初稿本还是增订本,都没有采取统计大量材料的方法,而采取选择和统计、检验相结合的方法。据编者介绍,词表编成后,曾利用各种性质的书报文章约130000多字、50000多词进行常用性检验,结果证明,初稿本的词汇出现频率平均约为80%,增订本的词汇出现频率提高到87%。
  另一项具有手工性质的劳动,是1980年前娄警予、马世一等教师,对当时试行的十册统编教材中的中学生应该理解掌握的常用词,作了比较详尽的调查和统计,一共理出6494个常用词。他们认为这远远不够,因此,又按照《现代汉语词典》的顺序,挑出他们认为中学生应该学习掌握的词汇6113个。此外,他们认为《现代汉语小词典》所选的3000条成语,绝大多数都是中学生应该学习和掌握的,而那套课本只出现了814个。据此,他们提出,中学语文应该教给学生的词汇,大约应是15000条左右(其中成语约3000条,其他词语约12000条)。他们因此按音序列成了《中学生常用词汇表》,并提出“到底是多少,又应该包括哪些词汇”,需要“大家共同来研究”,他们只是“向全国热心于语文教学改革的同志们提供一个蓝本”。
  这是目前我们所知的新中国第一项直接面向学校教育的汉语词汇目标量化研究。这项研究肯定没有借助计算机,它的选词标准也不是建立在词频统计基础上的,因而就某一具体词语的当选与否来讲,其科学性肯定是差点儿。这项成果也没有在全国推广。但这项研究的巨大意义就在于,它是新中国语文教育史上第一项明确关于汉语词汇教学量化标准问题的研究。
  我国开展大规模的不同用途的汉语词频统计工作,是在计算机技术得到广泛应用以后。这些成果中比较具有全局意义的直接面向学校和用作其他需要的各有数项,下面略作介绍:
  (一)直接面向学校的
  1.北京师范大学现代教育技术研究所部分研究人员同中文系部分汉语教师合作,利用两年多的时间,对全国统一使用的1983~1984年度的中小学语文教材(共24册)作了大规模的词频统计与分析。共输入104万字,约生成4万个词条。然后再利用计算机把词频值和方差值(即词在各种文体中的覆盖率)都达到某一界限的词全部选出来,确定为常用词。这项成果于1985年7月通过国家鉴定,并形成《现代汉语词表》《三千常用词表》《八千常用词表》《一万常用词表》和《现代汉语构词字典》等具体成果。
  这项研究的意义毋庸置疑,但是,它并没有提出中小学词语教学的量化标准,而且,词频统计的取材范围只局限于当时的一套统编教材,这个选材面太窄了,明显不足以证明所选词语的“常用性”,统计结果受该教材的编辑思想和选文标准的局限是自然的。
  2.北京语言学院语言教学研究所从1979年11月开始至1985年7月止,历时5年零8个月,对4类(报刊政论、科普、生活口语、文学作品)语体179种180万字的语料进行统计,共得到词条31159个,其中出现频率在10次以上的常用词,只有8000个。这8000个词累计出现频率占全部语料总量的95%强,其余23159个词的累计出现频率仅占全部语料的5%弱。据此他们编成《现代汉语频率词典》。
  这项成果还直接生成或影响了另外两项成果:一是国家对外汉语教学领导小组办公室汉语水平考试部,据此确立了《汉语水平词汇与汉字等级大纲》(1992)和《汉语水平等级标准》(1995)里的词汇量化标准8821个(亦说8822个)。一是国家语委据此编制了《普通话水平测试大纲(修订本)》(1994)“普通话(口语和书面语)常用词语”表一里的8454个常用词语。
  这项成果对对外汉语教学产生了比较大的影响,直到现在它还是人们讨论对外汉语词汇教学问题的依据,但是这项成果对国内中小学语文教学并没有产生直接影响。
  (二)用作其他需要的
  1.北京航空航天大学等10个单位,从1981年到1986年,历时6年,前后有数百人,进行了一项据他们自己称是“世界上迄今为止规模最大的”汉语词频统计。这次词频统计选材3亿汉字,编码输出2000万汉字(含标点符号),统计出词条达7万之多,统计材料覆盖1919年至1982年的四个时期,涉及社会科学和自然科学的10类学科。该项研究1986年6月30日通过国家级鉴定,主要成果收集在刘源主编的《现代汉语常用词词频词典》里。
  2.国家语委语用所现代汉语通用词课题组,在近2亿汉字语料的基础上,吸收国内外主要的词频统计成果,并运用新的抽样语料进行覆盖率检验,采集我国“社会生活各个方面、各行各业都通用”的现代汉语词汇。该项研究的首批成果《现代汉语通用词·基本集》已通过专家审定(1997),它收词6万多,其中一级词5191个,二级词8792个,共13893个。《现代汉语通用词·基本集》以外还有扩充集。扩充集以短语为主。
  3.许嘉璐、傅永和主持,清华大学、北京大学、国家语委语用所等十多个单位联合攻关完成的国家社科研究九五规划重大项目“信息处理用现代汉语词汇研究”,得到一个包含158000个字词的工作初表,然后再将这个表中的每个词置于8亿字左右的语料中作词频统计,最后采用“定性 定量”的处理策略(即运用各类语言学规则并参照统计数据),形成这个课题的核心成果之一——《信息处理用现代汉语分词词表》。这个词表共收词92843个,其中一级常用词56606个,二级常用词36237个。
  这项成果除了给出到目前为止有统计学依据的最大现代汉语常用词表外,特别值得我们注意的有两点:一是该词表的词语分类。整个词表分成7大分库:普通词库、带字母词库、专名库、常用接续库(即语法学上的短语)、成语库、俗语库以及单字词库。每库词语又根据频度分为一级常用、二级常用。这些数据对于我们制定语文词汇教学量表有重要参考价值。二是该词表还采取了一个技术性措施,即强制要求该表必须涵盖《普通话常用三千词》及《汉语水平词汇与汉字等级大纲》给出的汉语常用8000词,仅仅淘汰了极少量过时的词。这使我们更加有理由重视汉语“八千常用词”,即上文所说“8821”或“8454”。
  以上三项成果,虽然都不是直接面向和服务于学校教育的,但它对于我们制定汉语词汇教学标准,考虑选词范围和选词量,是有重要参考价值的。
  
  参考文献:
  (1)倪宝元《语言学与语文教育》,上海教育出版社1995年。
  (2)徐梓、王雪梅《蒙学便读》,山西教育出版社1991年。
  (3)张志公《传统语文教育初探》,上海教育出版社1962年。
  (4)郑国民等《小学语文常用读物的字种与字量研究——“三、百、千”“四书”、古诗80首等六种读物的用字》,《语言文字应用》2003年第4期。
  (5)郑林曦《普通话三千常用词表》,文字改革出版社1987年。
  (6)张志公《语文教学研究——中学语文教学研究会会刊第一辑》,教育科学出版社1980年。
  (7)何克抗、李大魁《现代汉语三千常用词表》,北京师范大学出版社1987年。
  (8)吕必松《对外汉语教学概论(讲义)(续十)》,《世界汉语教学》1994年第4期。
  (9)北京语言学院语言教学研究室《现代汉语频率词典》,北京语言学院出版社1986年。
  (10)刘照雄《普通话水平测试大纲(修订本)》,吉林人民出版社1994年。
  (11)刘源《现代汉语常用词词频词典》,宇航出版社1990年。
  (12)国家语委语用所《现代汉语通用词》课题组(执笔)厉兵《〈现代汉语通用词〉选词原则》,《语言文字应用》1998年第2期。
  (13)孙茂松等《信息处理用现代汉语分词词表》,《语言文字应用》2001年第4期。
其他文献
目的探讨乳腺叶状肿瘤的疗效.方法对经手术和病理诊断确诊的30例乳腺叶状肿瘤的临床资料进行回顾性分析.结果 30例患者中良性叶状肿瘤16例,交界性叶状肿瘤9例,恶性5例.行局部
足跟痛,即足跟部局部性疼痛,临床上以中老年人多见。大部分患者由慢性损伤引起,常伴有跟骨结节部的前缘骨刺,给生活及工作带来很多不便。笔者自2003~2007年自拟中药外用方治疗足跟
以鄂尔多斯CO2地质储存地的土壤和典型植被小麦和黑麦草为研究对象,通过原位模拟实验,考察了不同浓度CO2入侵包气带对土壤细菌、真菌、放线菌数量及细菌群落多样性的影响。结
在Ni/CeO2中掺杂Fe2O3、La2O3和MnO2,并用XRD、TPR、TPD等对掺杂的催化剂的晶相结构、表面性能等进行了表征。结果表明,掺杂Fe2O3有利于比表面积增大、CeO2粒度减小和晶格氧
目的研制与开发组合靶基因自动检测仪应用软件.方法应用VB6.0编程语言及Access 97数据库实现压电石英谐振频率的实时检测与分析.结果实现了组合靶基因自动检测仪压电石英谐振
以含铁酸洗废液为主要原料,用铁粉对其作除酸处理后,与亚铁氰化钾反应,生成白浆,用氯酸钾氧化,经过滤、洗涤、干燥、研磨,制备出了深蓝色无机颜料——钾铁蓝。通过正交实验和
请看下面的句子:  1.笔者在学校工作了三十五年,至今,耳闻目睹过本市范围内几件关于学校里的恶性事件,有的是学校领导麻痹所致,有的是外部环境造成。其中淹死和被车碾死的占80%以上,这不能不让人“心有戚戚焉”。(《新安全》2004年第12期)  2.虽然有70%的同学表示理解《数分》的价值,但是几乎所有同学对课程难度都“心有戚戚焉”。(《文汇报》2005年1月14日)  3.国家发改委宣布,从3月2
课堂上,热热闹闹,很多同学攒在一起,可别误会了他们,他们可是在搞合作探究.你也别以为他们就是在上语文课,说不定他们是在上自然课,抑或是数学课、社会课什么的.这些课非但表
随着基础教育课程改革的不断推进,语文中考测试的改革也越来越受到广大语文教师的关注。语文中考改革,特别是基于纸笔测试形式的学业水平考试试卷会如何命制,考试试题会呈现什么
目的研究自体脾组织移植术后不同时相再生脾组织中生长相关蛋白(GAP-43)mRNA的表达,阐明GAP-43+神经在自体移植脾组织中的再生规律.方法健康Wistar大鼠108只,雌雄不限,体质量