论文部分内容阅读
中图分类号:H319.3 文献标识码:A
摘要:计算机和网络技术的迅速发展和一些优秀的电子语料库索引分析软件的出现使电子文本的收集变得简便而快捷,也使对语料库的分析和深入研究成为可能。近年来,已有个别教师开始尝试利用电子语料库工具来辅助教学和科研。本文简单介绍了电子语料库的发展历程、常用统计分析参数和原理以及几个常用的语料库索引分析软件。
关键词:电子语料库;语料库索引分析软件
电子语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。电子语料库最重要的特点是能迅速且精确地呈现出与输入关键词有关的海量真实语言情境,并以KWIC(Key Words In Context)等形象的方式呈现。目前电子语料库已广泛应用于词典编纂、语言学研究以及大规模语言测试的命题中,有些教师也开始尝试将其运用于教学和科研。
一、语料库的发展历程
20世纪50年代以前,语料库这个概念就已经存在。但是,这一时期的语料库主要是人工收集起来的纸质文本材料,与今天所说的电子语料库有很大的区别。这一时期主要是用人工方法对大量的纸质文本材料进行索引和统计,因而需要耗费大量的人力和时间,速度非常慢,效率低下。
20世纪50年代以后,计算机已经在一些科学研究领域得到应用。这一时期,计算机成为研究语料库的有力工具。计算机和电子语料有机结合形成了效率较高的电子语料库管理索引系统。
20世纪90年代以来,计算机的性能有了极大的提高,价格逐步下降,因特网的应用日趋广泛,网络上的电子文本材料数量飞速增长,将纸质文本材料电子化的各种设备逐渐普及,一些优秀的电子语料库分析统计软件也被开发出来,这使电子文本的收集和分析变得简便而快捷,一些较为知名的大型语料库也开始出现。近年来,随着计算机在教育领域的迅速普及,有个别语言教师特别是英语教师也开始尝试利用电子语料库工具来辅助教学和科研。
二、电子语料库的常用统计分析参数
1、标准化类符形符比
形符数指语料中的单词总数,同一个单词出现多次需要多次计数。类符数指语料中的单词形态数目,若同一个单词出现多次只能计数一次。将研究分析范围内的语料分成等长的若干部分,先计算出各个部分的类符数与形符数的比值,再将这些比值取算术平均值,就得到研究范围内语料的标准化类符形符比。该参数可以较好地反映出研究范围内语料的用词变化性,标准化类符形符比越高则用词变化性越强。
2、平均词长与平均句长
平均词长是指语料中出现的形符的词长的算术平均值。平均句长是指语料中全部句子中所包含形符数值的算术平均值。这两个参数在语料分析与研究中也有重要参考意义。
3、词频、关键词和关键性
词频是指语料中每一个类符出现的频率。关键词是指与某一标准相比其频率明显偏高的词看,偏高的程度就是其关键性。仅因为某一特定类符在语料中的词频显著地高就将其判定为关键词是不可取的,还要看其在参照语料库中的词频,而参照语料库的规模要足够大。
一般来说,我们用x2值来表示某一特定关键词的关键性:
x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))
其中,f代表某一单词在研究范围内的语料中的词频,c代表该单词在参照语料库中的词频,m代表研究范围内的语料的形符总数, c代表参照语料库的形符总数。
一般来说,如果一个单词的x。2值大于3.8,我们便可认定其在研究范围内的语料中具有较为显著的关键性。
4、搭配词与搭配力
英国伯明翰大学的辛克莱教授认为搭配是两个或两个以上的词在文本中很短距离内的共现。这一定义使得设计程序判断某一特定单词的搭配词及两者的搭配力变得可能。
我们一般用Z值来表征搭配力。表1是通过检索得到的某单词在某语料库中的语境块。每个单元格是一个形符,行数为t,左右跨距均为s,假设该语料库的形符数目为n。Lij在该语料库中共出现m次,则Lij的形符在该语料库全部形符中的占比是r=m/n。Lij在该语境块中的期望出现次数为e=mt(2s+1)/n。假设语境块中一共有c个与Lij相同的形符,则我们可以求出Lij在表1所示的语境块中分布的标准差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,则可以认为Lij与W之间的搭配力显著。
摘要:计算机和网络技术的迅速发展和一些优秀的电子语料库索引分析软件的出现使电子文本的收集变得简便而快捷,也使对语料库的分析和深入研究成为可能。近年来,已有个别教师开始尝试利用电子语料库工具来辅助教学和科研。本文简单介绍了电子语料库的发展历程、常用统计分析参数和原理以及几个常用的语料库索引分析软件。
关键词:电子语料库;语料库索引分析软件
电子语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。电子语料库最重要的特点是能迅速且精确地呈现出与输入关键词有关的海量真实语言情境,并以KWIC(Key Words In Context)等形象的方式呈现。目前电子语料库已广泛应用于词典编纂、语言学研究以及大规模语言测试的命题中,有些教师也开始尝试将其运用于教学和科研。
一、语料库的发展历程
20世纪50年代以前,语料库这个概念就已经存在。但是,这一时期的语料库主要是人工收集起来的纸质文本材料,与今天所说的电子语料库有很大的区别。这一时期主要是用人工方法对大量的纸质文本材料进行索引和统计,因而需要耗费大量的人力和时间,速度非常慢,效率低下。
20世纪50年代以后,计算机已经在一些科学研究领域得到应用。这一时期,计算机成为研究语料库的有力工具。计算机和电子语料有机结合形成了效率较高的电子语料库管理索引系统。
20世纪90年代以来,计算机的性能有了极大的提高,价格逐步下降,因特网的应用日趋广泛,网络上的电子文本材料数量飞速增长,将纸质文本材料电子化的各种设备逐渐普及,一些优秀的电子语料库分析统计软件也被开发出来,这使电子文本的收集和分析变得简便而快捷,一些较为知名的大型语料库也开始出现。近年来,随着计算机在教育领域的迅速普及,有个别语言教师特别是英语教师也开始尝试利用电子语料库工具来辅助教学和科研。
二、电子语料库的常用统计分析参数
1、标准化类符形符比
形符数指语料中的单词总数,同一个单词出现多次需要多次计数。类符数指语料中的单词形态数目,若同一个单词出现多次只能计数一次。将研究分析范围内的语料分成等长的若干部分,先计算出各个部分的类符数与形符数的比值,再将这些比值取算术平均值,就得到研究范围内语料的标准化类符形符比。该参数可以较好地反映出研究范围内语料的用词变化性,标准化类符形符比越高则用词变化性越强。
2、平均词长与平均句长
平均词长是指语料中出现的形符的词长的算术平均值。平均句长是指语料中全部句子中所包含形符数值的算术平均值。这两个参数在语料分析与研究中也有重要参考意义。
3、词频、关键词和关键性
词频是指语料中每一个类符出现的频率。关键词是指与某一标准相比其频率明显偏高的词看,偏高的程度就是其关键性。仅因为某一特定类符在语料中的词频显著地高就将其判定为关键词是不可取的,还要看其在参照语料库中的词频,而参照语料库的规模要足够大。
一般来说,我们用x2值来表示某一特定关键词的关键性:
x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))
其中,f代表某一单词在研究范围内的语料中的词频,c代表该单词在参照语料库中的词频,m代表研究范围内的语料的形符总数, c代表参照语料库的形符总数。
一般来说,如果一个单词的x。2值大于3.8,我们便可认定其在研究范围内的语料中具有较为显著的关键性。
4、搭配词与搭配力
英国伯明翰大学的辛克莱教授认为搭配是两个或两个以上的词在文本中很短距离内的共现。这一定义使得设计程序判断某一特定单词的搭配词及两者的搭配力变得可能。
我们一般用Z值来表征搭配力。表1是通过检索得到的某单词在某语料库中的语境块。每个单元格是一个形符,行数为t,左右跨距均为s,假设该语料库的形符数目为n。Lij在该语料库中共出现m次,则Lij的形符在该语料库全部形符中的占比是r=m/n。Lij在该语境块中的期望出现次数为e=mt(2s+1)/n。假设语境块中一共有c个与Lij相同的形符,则我们可以求出Lij在表1所示的语境块中分布的标准差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,则可以认为Lij与W之间的搭配力显著。