应用与前瞻:《现代汉语新词语计量研究与应用》

来源 :辞书研究 | 被引量 : 0次 | 上传用户:zzjokok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 《现代汉语新词语计量研究与应用》以基于大规模语料库建构的《现代汉语新词语信息电子词典》为依托,对新词语进行了多角度全方位的考察。不仅提出了新词语的界定原则、方法,对新词语的语法特征、构词法等进行了统计分析和精细描写,还进一步提出了新词语发现与识别的方法。该书具有研究基础的坚实性、研究内容的丰富性、研究方法的新颖性三大特点。无论是对汉语本体研究,还是语言信息处理,都具有前瞻和应用价值。
  关键词 新词语 计量研究 研究方法 应用
  
  吕叔湘先生1984年在《辞书研究》上呼吁对新词语进行研究之后,汉语新词的研究犹如雨后春笋。据不完全统计,近年来发表的各种研究新词语的论文有1000多篇,出版的新词语词典有60多部,但专著仅有四五部。总体来看,目前新词语研究特点表现为三个方面:新词语词典多,研究新词语的专著少;新词语的理论研究多,应用研究少;新词语的局部问题研究多,全方位研究少。
  而读罢亢世勇等著的《现代汉语新词语计量研究与应用》(中国社科出版社,2008,以下简称《研究与应用》),感觉耳目一新。该书突破了目前新词语研究的诸多局限,把定量统计和定性描写结合,理论和应用并举,全方位多角度对新词语进行描写。全书近三十万言,从新词界定到电子词典开发,再到语法特征、构词分析以及词典编纂和新词的发现识别都有涉及。全书涵盖四大块内容:首先在对国内新词语研究进行综述归纳的基础上,提出了语料库、定量与定性结合、理论与应用研究结合等三种研究方法。其次提出了《现代汉语新词语电子词典》的实现问题,为新词语研究打下基础。第三部分对新词语的特点、语法特征、构词法及类型等进行了多角度的统计和描写,属于新词语的理论研究。最后是对新词语的识别发现和词典编纂等应用问题研究,这也是目前大多数研究新词语的专著中所缺少的。从理论描写到应用研究,从局部分析到大规模新词语电子信息词典的建立,从本体的统计描写到基于网络的发现识别,无论是对汉语新词新语研究的纵向深入,还是语言信息处理中未登录词问题的解决,都极具前瞻和应用价值。
  《研究与应用》内容丰富,立意高远,构思缜密,展示出诸多新特色和闪光点,体现了作者在新词语研究方面的独特见解,启人深思。
  
  一、研究基础的坚实性
  
  与目前新词语的专著相比,《研究与应用》的高明之处首先表现在以大型《现代汉语新词语信息电子词典》为依托,有大规模的定量统计作为研究支撑。该电子词典收录新词语近4万条,是目前规模最大的新词词典。该词典按照人机两用的研究理念,采用分类和属性描述相结合的方法,对所收录的每个词的语法语义属性信息进行详细描述,并采用关系数据库的形式描述词语和语法、语义属性的二维关系。主要属性信息包括:词的常规信息、语法信息、构词法信息、产生途径信息、应用领域信息、来源信息、产生时间信息。对所收录的每一个新词语,按照所设置的属性信息字段进行描写。同时,该词典还具有动态性和开放性,跟踪汉语词汇发展变化和信息处理的发展,不断增加新词语,规模正不断扩大。基于该电子词典进行新词语的研究,研究基础坚实,检索方便,统计数据可靠,不仅改变了传统的内省式的研究方法,也真正把新词语的研究手段技术化。基于电子词典所作的定量统计,为定性描写提供了有力的支持。依托大规模的新词语信息电子词典进行研究,成为该书的一大特色。
  
  二、研究内容的丰富性
  
  《研究与应用》内容丰富,信息量大。全书八章,分别是新词语研究的现状及方法、新词语信息电子词典的实现、新词语界定、语法特征统计、构词法研究、类型研究、新词语词典编纂、新词语发现与识别。不仅包含了其他新词语专著尚未涉及的新词语电子词典等前沿内容,对新词语的分析也别具特色。以新词语的类型分析为例,目前新词语专著通常区分为新词形、新意义、新用法三种类型,然后对各个小类进行简单分析。而《研究与应用》中新词语类型研究涉及到缩略语、旧词新用、科技词语、外来词的本土化、方言词新用、字母词、网络用语等,每一部分都有下位的小类划分及数量的统计说明,然后对其语音、语义等特点进行分析,并对发展趋势进行预测。
  
  三、研究方法的新颖性
  
  目前的新词语研究,主要还是内省式或对少数词语的简单分析,而少有大规模的统计描写。《研究与应用》把新词语研究的各项工作建立在定量研究和定性研究相结合的基础上,每一步研究都真实有据,结论令人信服。如对新词语中名词组合能力的分析,不再停留在“名词大都受数量词修饰”的理论叙述上,而是用切实的数据统计进行说明,指出新词语中名词受数词修饰的比例占81.19%,受个体量词修饰的比例仅占55.83%。《研究与应用》还综合运用了语料库语言学方法以及理论与应用研究并举的方法。这些方法虽然也是其他新词语专著中所倡导的,但往往流于形式。而《研究与应用》收录的新词,都是在大规模的动态语料库的支持下获取的,这正是其优势。正如李行健(2003)所言:“正因为利用了高新技术,才可以广泛地收集语料并使语料变换聚合的形态,改变查找语料的方式,方便而准确地对语料进行对比分析,确定每个新词语出现的语境,概括其含义和用法,选择鲜活的例句。”
  另外,新词语的发现和识别方法研究也是《研究与应用》的特色。目前新词语专书对此问题的研究相对薄弱。新词语的发现策略主要包括基于规则和基于统计两种类型。基于统计的方法可移植性强,但难以解决数据稀疏问题,缺乏语言学验证。基于规则的方法则难以穷尽语料,且资源建设代价高,可移植性差。新词语的出现和使用没有必然的理据性,产生新词可以自然或按照一定的标准聚合成一定语法类或其他类,但这些都是后验性的,所以目前的基于规则和基于统计的发现策略存在很大的缺陷。《研究与应用》针对这些缺陷,提出了三种新词语的发现识别策略:基于动态流通语料库的VSM(向量空间模型)的新词发现策略、面向Inter-net的中文新词语检测策略和基于分类网页链接分析的快速获取领域新词语的策略。基于动态流通语料库的VSM的新词发现策略要建立在语素属性库的基础上,建立VSM模型,利用VSM进行空间向量相似度的计算,并通过对训练语料的统计来判断组合是否是合法组合,通过语言学视角、认知视角等进行验证。面向Internet的中文新词语检测策略,首先要对大规模网页进行处理,对于切分后的网页内容,用重复串查找寻找新词语,并根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合;在背景词串集合的基础上,通过评价函数对给定时间之后的词和串进行比较,从中得到新词语候选;最后通过过滤规则进行过滤,得到最终的新词语。而基于分类网页链接分析快速获取领域新词语的方法建立在超大规模语料库的基础上,直接抽取语料库中网页上人工标引的“关键词”和其他词语信息,并按照该网页栏目的对应类别将新词语分类,同时达到了新词语识别和领域聚类的目的。从实践结果看,这三种新方法是行之有效的,是新词语自动获取研究的大胆尝试,具有重要的实践价值。
  《研究与应用》对新词语进行了全方位研究,提出了很多解决问题的新思路,以及值得进一步研究的新课题。该书在对新词语进行多角度理论研究的同时,强调应用研究,书中提供的分析数据具有较高的应用价值。理论与应用并举,是新词语研究的方向。这是一部理论与应用相结合的汉语新词语研究力作,值得一读。由于《研究与应用》各章节由多人合作完成,某些章节在内容上有些重复,如新词语类型研究和新词语词典编纂部分。白玉微瑕但瑕不掩瑜,作为新词语多维度研究的典范,《研究与应用》可以给新词语的理论和应用研究提供参考和帮助,也可以为新词语爱好者提供理论指导。
  
  (责任编辑 刘 琳)
其他文献
网络日益普及使得新词语数量急剧增加。新词语中有一种是ABB式的指人义新词语,其特点是词形均为三音节,A部分表示姓氏,BB重叠的部分表示姓氏为A的名主具备的主要特征。请看以下例子:  (1)最近,“范跑跑”被所在学校辞退,理由是他“不具有教师的职业道德”。  (《新民晚报》2008一06—20)  (2)在某网站发起的你选谁做孩子老师的投票中,宁要“范跑跑”不要“郭删  跳”的调查结果,在某种程度上
期刊
摘要 文章辑录了作者三十几年来在编写、修订词典过程中陆续听到、看到、说到的一些有关辞书编写的精彩言论。这些言论大都是前辈学者多年潜心词典编纂的经验总结,少数是笔者的个人体会。内容涉及辞书编辑的素质,辞书编纂的组织,辞书的框架、资料、编写、修订及辞书的规范等。  关键词 辞书编辑 辞书的组织 辞书编纂 辞书规范    辞书研究属于辞书理论范畴,辞书编写属于辞书实践范畴。辞书编写离不开辞书研究的指导,
期刊
摘要 陈璧耀先生主编的《新编成语大词典》将许多望文生义的成语收入。对此,笔者认为应当缓行。原因在于;第一,与主流词典的释义不吻合,大众接受或有困难;第二,在实际的教学厦语言运用层面上或有困难;第三,收与不收缺乏可供依据的凭证;第四,规范词典的编纂和词义收录可以而且应当具有一定的滞后性。对此,笔者提出以下建议:一、加快词语“义频”统计的步伐;二、重新认识词频在新义收录当中的作用;三、对收录的层次和
期刊
第八届全国语文辞书学术研讨会于20u年9月17-18日在西安陕西师范大学举行。研讨会由中国辞书学会语文词典专业委员会主办,陕西师范大学文学院承办,中国社会科学院语言研究所、商务印书馆、语文出版社、外语教学与研究出版社、陕西人民出版社协办。会议以“汉语词汇研究与语文辞书编纂”为主要议题。来自全国各地的辞书理论研究者和辞书编纂出版工作者70余人出席此次会议。会议共收到论文59篇,采取了大会发言和分组讨
期刊
中国辞书学会第九届年会暨第三届辞书事业终身成就奖颁奖大会于2011年7月29日到8月1日在宁夏回族自治区银川市举行。本次会议由中国辞书学会主办,黄河出版传媒集团宁夏人民出版社承办。来自全国各地的80余位代表出席了此次会议。  本次会议由两部分组成:一是中国辞书学会年会,二是辞书事业终身成就奖颁奖活动。其中年会又分为三项内容:一是总结工作;二是专家学术报告;三是分组学术交流。  会上,江蓝生会长致开
期刊
摘要 方言词的理据研究具有三方面的意义。刘瑞明先生在方言词谐音语理据研究方面有一系列研究成果,从中可以归纳出方言词谐音语理据研究的三种方法,也有三个方面需要注意。  关键词 方言词 谐音语 理据 刘瑞明  方言是语言的地方变体,是一种语言中与标准语有区别的、只通行于一个地区的话。方言词的理据研究,是近年来兴起的新的研究方向。  一、方言词理据研究的意义和作用  任何一项新的研究的兴起都不是偶然的,
期刊
摘要 在汉英词典编纂过程中,词典编者把握语言单位“无标记”和“有标记”的特性,充分考虑词典词目翻译和例证翻译所适用的不同“语境”,并将其体现在词典的微观结构中,这对提高汉英词典编纂质量有着理论与现实意义。文章就“标记性理论”对基于平行语料库的汉英词典编纂的启示以及词典编者应当注意和把握的几个问题做了探讨。  关键词 平行语料库 标记理论 词目翻译 恃景语境
期刊
关于清代“说文”四大家及其代表性著作,王力先生主编的《古代汉语》中说到:  唐宋以后,研究《说文》的非常多,清代极盛,最受推重的有四大家:即著《说文解字注》的段玉裁、著《说文解字义疏》的桂馥、著《说文句读》的王筠、著《说文通训定声》的朱骏声。  按桂馥的著作《说文解字义疏》,一般情况下提及时总是称为《说文解字义证》(或简称为《说文义证》),是不是桂馥除了《说文解字义证》外还有一部《说文解字义疏》?
期刊
摘 要 语音造词法在新的时代背景和技术条件下出现了新的发展,即由于外来语的音译借用、方言土语词的移用或记音,网络语境的技术特点、交际原则,文学作品、广告作品对特定修辞效果的追求等影响,使汉字原有字形产生新义,包括音译、谐音、记音、合音等。  关键词 语音造词 网络语言 关联性    一、改革开放以来语音造词法的活跃    改革开放以来出现的新词新语中,比较引人注意的是通过语音造词法产生的一批词语。
期刊
《现代汉语词典》(第5版)(以下简称《现汉》)对于“儿化词”的处理是值得肯定的。“凡例”中说得很明白:在词形(书写形式)上,“书面上有时儿化有时不儿化,口语里必须儿化的词,自成条目,如[今儿]、[小孩儿]”;在注音上,“对于儿化音的注法,只在基本形式后面加‘r’,如[今儿]jinr,不标语音上的实际变化”。应该说,这些规定对《现汉》的科学性、规范性起到很好的指导作用。但我们发现,个别音译词条与儿化
期刊