论文部分内容阅读
摘 要 《现代汉语新词语计量研究与应用》以基于大规模语料库建构的《现代汉语新词语信息电子词典》为依托,对新词语进行了多角度全方位的考察。不仅提出了新词语的界定原则、方法,对新词语的语法特征、构词法等进行了统计分析和精细描写,还进一步提出了新词语发现与识别的方法。该书具有研究基础的坚实性、研究内容的丰富性、研究方法的新颖性三大特点。无论是对汉语本体研究,还是语言信息处理,都具有前瞻和应用价值。
关键词 新词语 计量研究 研究方法 应用
吕叔湘先生1984年在《辞书研究》上呼吁对新词语进行研究之后,汉语新词的研究犹如雨后春笋。据不完全统计,近年来发表的各种研究新词语的论文有1000多篇,出版的新词语词典有60多部,但专著仅有四五部。总体来看,目前新词语研究特点表现为三个方面:新词语词典多,研究新词语的专著少;新词语的理论研究多,应用研究少;新词语的局部问题研究多,全方位研究少。
而读罢亢世勇等著的《现代汉语新词语计量研究与应用》(中国社科出版社,2008,以下简称《研究与应用》),感觉耳目一新。该书突破了目前新词语研究的诸多局限,把定量统计和定性描写结合,理论和应用并举,全方位多角度对新词语进行描写。全书近三十万言,从新词界定到电子词典开发,再到语法特征、构词分析以及词典编纂和新词的发现识别都有涉及。全书涵盖四大块内容:首先在对国内新词语研究进行综述归纳的基础上,提出了语料库、定量与定性结合、理论与应用研究结合等三种研究方法。其次提出了《现代汉语新词语电子词典》的实现问题,为新词语研究打下基础。第三部分对新词语的特点、语法特征、构词法及类型等进行了多角度的统计和描写,属于新词语的理论研究。最后是对新词语的识别发现和词典编纂等应用问题研究,这也是目前大多数研究新词语的专著中所缺少的。从理论描写到应用研究,从局部分析到大规模新词语电子信息词典的建立,从本体的统计描写到基于网络的发现识别,无论是对汉语新词新语研究的纵向深入,还是语言信息处理中未登录词问题的解决,都极具前瞻和应用价值。
《研究与应用》内容丰富,立意高远,构思缜密,展示出诸多新特色和闪光点,体现了作者在新词语研究方面的独特见解,启人深思。
一、研究基础的坚实性
与目前新词语的专著相比,《研究与应用》的高明之处首先表现在以大型《现代汉语新词语信息电子词典》为依托,有大规模的定量统计作为研究支撑。该电子词典收录新词语近4万条,是目前规模最大的新词词典。该词典按照人机两用的研究理念,采用分类和属性描述相结合的方法,对所收录的每个词的语法语义属性信息进行详细描述,并采用关系数据库的形式描述词语和语法、语义属性的二维关系。主要属性信息包括:词的常规信息、语法信息、构词法信息、产生途径信息、应用领域信息、来源信息、产生时间信息。对所收录的每一个新词语,按照所设置的属性信息字段进行描写。同时,该词典还具有动态性和开放性,跟踪汉语词汇发展变化和信息处理的发展,不断增加新词语,规模正不断扩大。基于该电子词典进行新词语的研究,研究基础坚实,检索方便,统计数据可靠,不仅改变了传统的内省式的研究方法,也真正把新词语的研究手段技术化。基于电子词典所作的定量统计,为定性描写提供了有力的支持。依托大规模的新词语信息电子词典进行研究,成为该书的一大特色。
二、研究内容的丰富性
《研究与应用》内容丰富,信息量大。全书八章,分别是新词语研究的现状及方法、新词语信息电子词典的实现、新词语界定、语法特征统计、构词法研究、类型研究、新词语词典编纂、新词语发现与识别。不仅包含了其他新词语专著尚未涉及的新词语电子词典等前沿内容,对新词语的分析也别具特色。以新词语的类型分析为例,目前新词语专著通常区分为新词形、新意义、新用法三种类型,然后对各个小类进行简单分析。而《研究与应用》中新词语类型研究涉及到缩略语、旧词新用、科技词语、外来词的本土化、方言词新用、字母词、网络用语等,每一部分都有下位的小类划分及数量的统计说明,然后对其语音、语义等特点进行分析,并对发展趋势进行预测。
三、研究方法的新颖性
目前的新词语研究,主要还是内省式或对少数词语的简单分析,而少有大规模的统计描写。《研究与应用》把新词语研究的各项工作建立在定量研究和定性研究相结合的基础上,每一步研究都真实有据,结论令人信服。如对新词语中名词组合能力的分析,不再停留在“名词大都受数量词修饰”的理论叙述上,而是用切实的数据统计进行说明,指出新词语中名词受数词修饰的比例占81.19%,受个体量词修饰的比例仅占55.83%。《研究与应用》还综合运用了语料库语言学方法以及理论与应用研究并举的方法。这些方法虽然也是其他新词语专著中所倡导的,但往往流于形式。而《研究与应用》收录的新词,都是在大规模的动态语料库的支持下获取的,这正是其优势。正如李行健(2003)所言:“正因为利用了高新技术,才可以广泛地收集语料并使语料变换聚合的形态,改变查找语料的方式,方便而准确地对语料进行对比分析,确定每个新词语出现的语境,概括其含义和用法,选择鲜活的例句。”
另外,新词语的发现和识别方法研究也是《研究与应用》的特色。目前新词语专书对此问题的研究相对薄弱。新词语的发现策略主要包括基于规则和基于统计两种类型。基于统计的方法可移植性强,但难以解决数据稀疏问题,缺乏语言学验证。基于规则的方法则难以穷尽语料,且资源建设代价高,可移植性差。新词语的出现和使用没有必然的理据性,产生新词可以自然或按照一定的标准聚合成一定语法类或其他类,但这些都是后验性的,所以目前的基于规则和基于统计的发现策略存在很大的缺陷。《研究与应用》针对这些缺陷,提出了三种新词语的发现识别策略:基于动态流通语料库的VSM(向量空间模型)的新词发现策略、面向Inter-net的中文新词语检测策略和基于分类网页链接分析的快速获取领域新词语的策略。基于动态流通语料库的VSM的新词发现策略要建立在语素属性库的基础上,建立VSM模型,利用VSM进行空间向量相似度的计算,并通过对训练语料的统计来判断组合是否是合法组合,通过语言学视角、认知视角等进行验证。面向Internet的中文新词语检测策略,首先要对大规模网页进行处理,对于切分后的网页内容,用重复串查找寻找新词语,并根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合;在背景词串集合的基础上,通过评价函数对给定时间之后的词和串进行比较,从中得到新词语候选;最后通过过滤规则进行过滤,得到最终的新词语。而基于分类网页链接分析快速获取领域新词语的方法建立在超大规模语料库的基础上,直接抽取语料库中网页上人工标引的“关键词”和其他词语信息,并按照该网页栏目的对应类别将新词语分类,同时达到了新词语识别和领域聚类的目的。从实践结果看,这三种新方法是行之有效的,是新词语自动获取研究的大胆尝试,具有重要的实践价值。
《研究与应用》对新词语进行了全方位研究,提出了很多解决问题的新思路,以及值得进一步研究的新课题。该书在对新词语进行多角度理论研究的同时,强调应用研究,书中提供的分析数据具有较高的应用价值。理论与应用并举,是新词语研究的方向。这是一部理论与应用相结合的汉语新词语研究力作,值得一读。由于《研究与应用》各章节由多人合作完成,某些章节在内容上有些重复,如新词语类型研究和新词语词典编纂部分。白玉微瑕但瑕不掩瑜,作为新词语多维度研究的典范,《研究与应用》可以给新词语的理论和应用研究提供参考和帮助,也可以为新词语爱好者提供理论指导。
(责任编辑 刘 琳)
关键词 新词语 计量研究 研究方法 应用
吕叔湘先生1984年在《辞书研究》上呼吁对新词语进行研究之后,汉语新词的研究犹如雨后春笋。据不完全统计,近年来发表的各种研究新词语的论文有1000多篇,出版的新词语词典有60多部,但专著仅有四五部。总体来看,目前新词语研究特点表现为三个方面:新词语词典多,研究新词语的专著少;新词语的理论研究多,应用研究少;新词语的局部问题研究多,全方位研究少。
而读罢亢世勇等著的《现代汉语新词语计量研究与应用》(中国社科出版社,2008,以下简称《研究与应用》),感觉耳目一新。该书突破了目前新词语研究的诸多局限,把定量统计和定性描写结合,理论和应用并举,全方位多角度对新词语进行描写。全书近三十万言,从新词界定到电子词典开发,再到语法特征、构词分析以及词典编纂和新词的发现识别都有涉及。全书涵盖四大块内容:首先在对国内新词语研究进行综述归纳的基础上,提出了语料库、定量与定性结合、理论与应用研究结合等三种研究方法。其次提出了《现代汉语新词语电子词典》的实现问题,为新词语研究打下基础。第三部分对新词语的特点、语法特征、构词法及类型等进行了多角度的统计和描写,属于新词语的理论研究。最后是对新词语的识别发现和词典编纂等应用问题研究,这也是目前大多数研究新词语的专著中所缺少的。从理论描写到应用研究,从局部分析到大规模新词语电子信息词典的建立,从本体的统计描写到基于网络的发现识别,无论是对汉语新词新语研究的纵向深入,还是语言信息处理中未登录词问题的解决,都极具前瞻和应用价值。
《研究与应用》内容丰富,立意高远,构思缜密,展示出诸多新特色和闪光点,体现了作者在新词语研究方面的独特见解,启人深思。
一、研究基础的坚实性
与目前新词语的专著相比,《研究与应用》的高明之处首先表现在以大型《现代汉语新词语信息电子词典》为依托,有大规模的定量统计作为研究支撑。该电子词典收录新词语近4万条,是目前规模最大的新词词典。该词典按照人机两用的研究理念,采用分类和属性描述相结合的方法,对所收录的每个词的语法语义属性信息进行详细描述,并采用关系数据库的形式描述词语和语法、语义属性的二维关系。主要属性信息包括:词的常规信息、语法信息、构词法信息、产生途径信息、应用领域信息、来源信息、产生时间信息。对所收录的每一个新词语,按照所设置的属性信息字段进行描写。同时,该词典还具有动态性和开放性,跟踪汉语词汇发展变化和信息处理的发展,不断增加新词语,规模正不断扩大。基于该电子词典进行新词语的研究,研究基础坚实,检索方便,统计数据可靠,不仅改变了传统的内省式的研究方法,也真正把新词语的研究手段技术化。基于电子词典所作的定量统计,为定性描写提供了有力的支持。依托大规模的新词语信息电子词典进行研究,成为该书的一大特色。
二、研究内容的丰富性
《研究与应用》内容丰富,信息量大。全书八章,分别是新词语研究的现状及方法、新词语信息电子词典的实现、新词语界定、语法特征统计、构词法研究、类型研究、新词语词典编纂、新词语发现与识别。不仅包含了其他新词语专著尚未涉及的新词语电子词典等前沿内容,对新词语的分析也别具特色。以新词语的类型分析为例,目前新词语专著通常区分为新词形、新意义、新用法三种类型,然后对各个小类进行简单分析。而《研究与应用》中新词语类型研究涉及到缩略语、旧词新用、科技词语、外来词的本土化、方言词新用、字母词、网络用语等,每一部分都有下位的小类划分及数量的统计说明,然后对其语音、语义等特点进行分析,并对发展趋势进行预测。
三、研究方法的新颖性
目前的新词语研究,主要还是内省式或对少数词语的简单分析,而少有大规模的统计描写。《研究与应用》把新词语研究的各项工作建立在定量研究和定性研究相结合的基础上,每一步研究都真实有据,结论令人信服。如对新词语中名词组合能力的分析,不再停留在“名词大都受数量词修饰”的理论叙述上,而是用切实的数据统计进行说明,指出新词语中名词受数词修饰的比例占81.19%,受个体量词修饰的比例仅占55.83%。《研究与应用》还综合运用了语料库语言学方法以及理论与应用研究并举的方法。这些方法虽然也是其他新词语专著中所倡导的,但往往流于形式。而《研究与应用》收录的新词,都是在大规模的动态语料库的支持下获取的,这正是其优势。正如李行健(2003)所言:“正因为利用了高新技术,才可以广泛地收集语料并使语料变换聚合的形态,改变查找语料的方式,方便而准确地对语料进行对比分析,确定每个新词语出现的语境,概括其含义和用法,选择鲜活的例句。”
另外,新词语的发现和识别方法研究也是《研究与应用》的特色。目前新词语专书对此问题的研究相对薄弱。新词语的发现策略主要包括基于规则和基于统计两种类型。基于统计的方法可移植性强,但难以解决数据稀疏问题,缺乏语言学验证。基于规则的方法则难以穷尽语料,且资源建设代价高,可移植性差。新词语的出现和使用没有必然的理据性,产生新词可以自然或按照一定的标准聚合成一定语法类或其他类,但这些都是后验性的,所以目前的基于规则和基于统计的发现策略存在很大的缺陷。《研究与应用》针对这些缺陷,提出了三种新词语的发现识别策略:基于动态流通语料库的VSM(向量空间模型)的新词发现策略、面向Inter-net的中文新词语检测策略和基于分类网页链接分析的快速获取领域新词语的策略。基于动态流通语料库的VSM的新词发现策略要建立在语素属性库的基础上,建立VSM模型,利用VSM进行空间向量相似度的计算,并通过对训练语料的统计来判断组合是否是合法组合,通过语言学视角、认知视角等进行验证。面向Internet的中文新词语检测策略,首先要对大规模网页进行处理,对于切分后的网页内容,用重复串查找寻找新词语,并根据给定的时间,建立一个给定时间之前的大规模的词与串的背景词串集合;在背景词串集合的基础上,通过评价函数对给定时间之后的词和串进行比较,从中得到新词语候选;最后通过过滤规则进行过滤,得到最终的新词语。而基于分类网页链接分析快速获取领域新词语的方法建立在超大规模语料库的基础上,直接抽取语料库中网页上人工标引的“关键词”和其他词语信息,并按照该网页栏目的对应类别将新词语分类,同时达到了新词语识别和领域聚类的目的。从实践结果看,这三种新方法是行之有效的,是新词语自动获取研究的大胆尝试,具有重要的实践价值。
《研究与应用》对新词语进行了全方位研究,提出了很多解决问题的新思路,以及值得进一步研究的新课题。该书在对新词语进行多角度理论研究的同时,强调应用研究,书中提供的分析数据具有较高的应用价值。理论与应用并举,是新词语研究的方向。这是一部理论与应用相结合的汉语新词语研究力作,值得一读。由于《研究与应用》各章节由多人合作完成,某些章节在内容上有些重复,如新词语类型研究和新词语词典编纂部分。白玉微瑕但瑕不掩瑜,作为新词语多维度研究的典范,《研究与应用》可以给新词语的理论和应用研究提供参考和帮助,也可以为新词语爱好者提供理论指导。
(责任编辑 刘 琳)