电子语料库及常用语料库索引分析软件介绍

来源 :商业2.0 | 被引量 : 0次 | 上传用户:xiaowen51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  中图分类号:H319.3 文献标识码:A
  摘要:计算机和网络技术的迅速发展和一些优秀的电子语料库索引分析软件的出现使电子文本的收集变得简便而快捷,也使对语料库的分析和深入研究成为可能。近年来,已有个别教师开始尝试利用电子语料库工具来辅助教学和科研。本文简单介绍了电子语料库的发展历程、常用统计分析参数和原理以及几个常用的语料库索引分析软件。
  关键词:电子语料库;语料库索引分析软件
  电子语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库。电子语料库最重要的特点是能迅速且精确地呈现出与输入关键词有关的海量真实语言情境,并以KWIC(Key Words In Context)等形象的方式呈现。目前电子语料库已广泛应用于词典编纂、语言学研究以及大规模语言测试的命题中,有些教师也开始尝试将其运用于教学和科研。
  一、语料库的发展历程
  20世纪50年代以前,语料库这个概念就已经存在。但是,这一时期的语料库主要是人工收集起来的纸质文本材料,与今天所说的电子语料库有很大的区别。这一时期主要是用人工方法对大量的纸质文本材料进行索引和统计,因而需要耗费大量的人力和时间,速度非常慢,效率低下。
  20世纪50年代以后,计算机已经在一些科学研究领域得到应用。这一时期,计算机成为研究语料库的有力工具。计算机和电子语料有机结合形成了效率较高的电子语料库管理索引系统。
  20世纪90年代以来,计算机的性能有了极大的提高,价格逐步下降,因特网的应用日趋广泛,网络上的电子文本材料数量飞速增长,将纸质文本材料电子化的各种设备逐渐普及,一些优秀的电子语料库分析统计软件也被开发出来,这使电子文本的收集和分析变得简便而快捷,一些较为知名的大型语料库也开始出现。近年来,随着计算机在教育领域的迅速普及,有个别语言教师特别是英语教师也开始尝试利用电子语料库工具来辅助教学和科研。
  二、电子语料库的常用统计分析参数
  1、标准化类符形符比
  形符数指语料中的单词总数,同一个单词出现多次需要多次计数。类符数指语料中的单词形态数目,若同一个单词出现多次只能计数一次。将研究分析范围内的语料分成等长的若干部分,先计算出各个部分的类符数与形符数的比值,再将这些比值取算术平均值,就得到研究范围内语料的标准化类符形符比。该参数可以较好地反映出研究范围内语料的用词变化性,标准化类符形符比越高则用词变化性越强。
  2、平均词长与平均句长
  平均词长是指语料中出现的形符的词长的算术平均值。平均句长是指语料中全部句子中所包含形符数值的算术平均值。这两个参数在语料分析与研究中也有重要参考意义。
  3、词频、关键词和关键性
  词频是指语料中每一个类符出现的频率。关键词是指与某一标准相比其频率明显偏高的词看,偏高的程度就是其关键性。仅因为某一特定类符在语料中的词频显著地高就将其判定为关键词是不可取的,还要看其在参照语料库中的词频,而参照语料库的规模要足够大。
  一般来说,我们用x2值来表示某一特定关键词的关键性:
  x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))
  其中,f代表某一单词在研究范围内的语料中的词频,c代表该单词在参照语料库中的词频,m代表研究范围内的语料的形符总数, c代表参照语料库的形符总数。
  一般来说,如果一个单词的x。2值大于3.8,我们便可认定其在研究范围内的语料中具有较为显著的关键性。
  4、搭配词与搭配力
  英国伯明翰大学的辛克莱教授认为搭配是两个或两个以上的词在文本中很短距离内的共现。这一定义使得设计程序判断某一特定单词的搭配词及两者的搭配力变得可能。
  我们一般用Z值来表征搭配力。表1是通过检索得到的某单词在某语料库中的语境块。每个单元格是一个形符,行数为t,左右跨距均为s,假设该语料库的形符数目为n。Lij在该语料库中共出现m次,则Lij的形符在该语料库全部形符中的占比是r=m/n。Lij在该语境块中的期望出现次数为e=mt(2s+1)/n。假设语境块中一共有c个与Lij相同的形符,则我们可以求出Lij在表1所示的语境块中分布的标准差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,则可以认为Lij与W之间的搭配力显著。
其他文献
中图分类号:B978 文献标识码:A  摘要:宗教作为人类文化中不可或缺的一部分在维护世界稳定与和谐上发挥着不可磨灭的作用。它不仅给人们一种精神上的慰藉,更能反映不同文明在发展遇到困难时所展现出的道德缩影。本文主要选取东西方最具有代表意义的两个宗教在善恶观反应态度上进行比较,从中可以看出两者文明虽存在着巨大差异,但在一些普世价值上却有异曲同工之妙,对世人的止恶扬善,对世界的持续发展起着至关重要的作
期刊
中图分类号:H059 文献标识码:A  摘要:商务英语翻译翻译是有利于各国人民进行科技、文化、商业交流的重要活动。因此,从事商务翻译工作的人员承担着特殊义务,不仅应具备良好的政治素养和高度的责任感,而且应具备一定程度的外语水平能力、母语水平能力、知识水平能人、应用水平能力等. 商务英语是应用于商务方面的一种特殊英语语体。在国际贸易和国际营销等跨国的商务运作中商务英语形成了自身的文体特征。  关键词
期刊
中图分类号:TP343 文献标识码:A  基金项目:秦皇岛市科技局课题“基于P2P的视频点播系统在教学中的应用研究” (课题编号:201101A021)  摘要:随着视频点播技术成为Internet上一种非常流行的服务,本文在研究大量相关技术的基础上,着重介绍了当前主流的P2P、CDN以及网络编码技术,并指出了这些技术的优点及不足,同时,针对未来视频点播的发展方向进行了展望。  关键词:VOD;
期刊
中图分类号:F724.6 文献标识码:A  摘要:网络经济是新型的社会经济形态,其对现代企业的发展产生了深远的影响。网络经济时代,企业要想获取更大的市场竞争优势,必须要制定出适应网络经济时代特征的企业战略。本文具体分析了网络经济特征及其对企业发展的影响,并结合网络经济环境下企业战略创新的必要性,提出了网络经济下企业战略创新的途径。  关键词:网络经济;企业;战略创新;发展  随着网络科技技术不断发
期刊
摘要:数字化医疗是新型的现代化医疗模式,各类信息技术在数字化医疗形成过程中起着关键的作用。近年来,在政府部门大力投入下,以电子病历为中心的医学信息技术研究蓬勃开展。本文叙述了数字化医疗的特征、结构、优势,以及我国实行数字化医疗的现状和解决对策。  关键词:数字化医疗;信息技术;发展趋势  1. 引言  数字化医疗是把当代计算机技术、信息技术应用于整个医疗过程的一种新型的现代化医疗方式。在数字化医疗
期刊
中图分类号:F830.49 文献标识码:A  摘要:本文通过对互联网金融的概念及其发展现状及基本特征进行分析,与传统金融业进行对比,进而对互联网金融和传统商业银行的发展提供若干建议及对策。  关键词:互联网金融;商业银行;对策  一、互联网金融的概念  互联网金融是指以云计算、大数据、搜索引擎等新一代高新技术为基础,以支付结算、网络融资并借助于互联网技术、移动通信技术实现资金融通、支付和信息中介等
期刊
中图分类号:F235 文献标识码:A  摘要:电子商务是通过电子方式,在网络基础上实现商品物资、人员信息的协调而产生的商业贸易活动。其范围相当广泛:电子邮件、电子数据交换、增值网、快速反应系统、电子转账、交易事务处理、联机服务、智能卡、电子监视、多媒体导购等。电子商务的发展为各种新的更加高效的会计模式提供了广阔的空间和可能,也给传统会计理论和实务带来了许多始料不及的冲击。本文从会计理论、会计信息系
期刊
中图分类号:D613 文献标识码:A  摘要:微博,作为一种新兴的网络工具,近年来受到越来越多用户的青睐和广大网民的欢迎,引起了政府﹑媒体和学术界的热烈关注,成为当下中国最热门的网络工具。微博的迅速发展以及微博问政的兴起,提供了一种新工具,构建了一个信息发布﹑舆论引导﹑政民互动的新平台。它以快速﹑便捷﹑互动性强等优点,推动了公众参与的发展和创新。但是微博问政仍面临着许多难题。因此,加强对我国微博问
期刊
中图分类号:G222 文献标识码:A  基金项目:本文系江苏大学第13批学生科研课题立项资助项目“大众传媒价值观传递对受众的影响调查”(项目编号:13C227)研究成果。  摘要:随着网络信息技术的高速发展,大众传媒的表现形式也日趋多样,衍生出网络、报刊、电视等多种多样的媒介的载体。大众传媒作为一种传播思想、认知与观念的平台,其不可避免地会产生两种迥异的结果:积极的价值宣导与消极的思想腐蚀,从而给
期刊
中图分类号:F49 文献标识码:A  摘要:本文介绍了云计算对电子商务的影响及其安全问题,通过对电子商务的安全需求研究,提出了应对电子商务安全问题的策略。  关键词:云计算;电子商务;安全  一、云计算对电子商务的影响  (一)云计算使得企业电子商务安全性得到改善。随着云技术在企业中的应用,电子商务企业不必再担心由于各种电子商务安全问题导致的企业重要数据丢失或失窃。这是因为企业将数据存储在云端,云
期刊