计算机技术在语言学中的应用探析

来源 :决策与信息·中旬刊 | 被引量 : 0次 | 上传用户:w56382955
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要] 在语言学中,计算机技术更能大显身手。在过去的语言学研究中,语料库需要手工编纂整理,耗時耗力,而如今所有的数据采集处理汇总全部由计算机完成,人们只需要编写和维护程序就可以达到建立一个庞大语料库的目的。而作为批改等评分体系而言,则更具有准确性和高效性,国内外众多的大型英语类考试就应用了这一系统。文章通过对于自动评分系统的发展、自动评分系统构建、语言学原理技术等进行分析,模拟对自动评分系统的建立及其优缺点进行评判,分析自动评分系统的差距与不足以及发展前景。
  [关键词] 发展;五大发展理念;继承与超越
  [中图分类号] TP399 [文献标识码] A [文章编号] 1002-8129(2017)01-0069-03
  1943年,世界上第一台计算机在美国面世,它重达5吨并且由7500万个零部件组成。它十分笨重且无法进行过于复杂的计算。随着科技的日新月移,计算机越来越小巧化,越来越多功能化。现在的计算机技术不仅仅满足了人们进行复杂运算的需求,还可以进行更加深层复杂的算法计算,并向着人工智能的方向发展。计算机技术也更多地应用于语言学研究的领域。在语言学中,主要有以下几个方面的应用:
  一、语料库
  初期的语料库是一种收集了各种英语语言材料的数据库,这一收集整理工作很长时间以来是依靠人力完成的。而现在利用计算机技术,语言材料的收集整理有了全新的更加便捷的处理方式。布朗语料库被视为是第一代语料库的代表,它所包含的语言材料数目很小,大约只有一百万左右。20世纪80年代,第二代语料库诞生了,这一代的语料库的材料数目已经远大于第一代,而且还增加了各种不同的条目。到了20世纪90年代,语料库发展到第三代更加商用的语料库,通常包含有数十亿的词汇及材料,而且还在运用更加先进的技术对其进行完善。
  二、机器翻译
  机器翻译的研究已经历经近五十年,许多新理论、新方法、新技术不断出现。随着商用语料库的出现,机器翻译有了突破性的进展,发展出了统计学方法以及实例方法。虽然这个领域有长足进步,但机器翻译仍旧存在着很多的问题,这不仅是计算机领域所要进行的突破,更是语言学方面需要做出的努力。
  三、自动作文评分系统
  自动作文评分系统(Auto Essay Scoring System,AESS)是计算机领域在语言学方面的又一重要应用。写作任务是大范围语言测试的重要部分之一,几乎在所有层次所有类型的大规模语言考试中都能见到。它可以测试出受试者对于这一门语言的掌握情况。而对于写作任务的评分而言,一是需要大量的人力物力来支持,二是由于个体的差异会导致评分结果的主观性较强,信度和效度不高。而计算机技术的发展与应用,为解决上述的两个问题提供巨大的帮助。
  上述内容是对于计算机技术在语言学方面应用的一个简单回顾,下面着重介绍计算机技术在自动作文评分系统中的应用。
  Page是自动作文评分系统领域的先驱,他在1966年创造Project Essay Grader (PEG)系统,用以更加方便快捷地解决大范围语言考试中作文部分的评分任务。而当时的评价系统仅仅是通过对于特定文本特征分析来对作文进行评分,评分依据相对单一。直到1990年后,这一领域的研究瓶颈才被突破。随着自然语言处理技术以及信息检索技术的发展,自动作文评分系统领域的研究重新换发活力。在20世纪90年代,Educational Testing Service (ETS)开始研发第一代ETS。尽管作文的内容还尚未纳入评分系统的考核范围之内,且它只能判定20个词以内的句子,但它已经能够通过直接的评价手段来对作文进行评分。在20世纪90年代末,3个全新的自动作文评分系统出现了:①Intelligent Essay Assessor (IEA)更加重视作文内容方面的评判。②Electronic Essay Rater (E-rater) 是基于第一代ETS的新的系统,它综合考量文章结构、句子结构以及文章内容。③Intelligent Metric (IM) ,是第一个运用人工智能技术,将作文的风格及内容综合考虑并进行评分的系统。
  大致了解了自动作文评分系统的发展之后,我们着重介绍一下自动作文评分系统中所运用到的计算机技术。
  Page将作文评分划分为两个部分,一是对于内容的评分;二是对于语言特征的评分。前者更加重视文章所描述的具体内容而后者包括句法、写作机制、措辞及表达等。争论的焦点在于这两个方面应该综合起来进行考虑,不应该孤立地考量,将二者综合考虑这一观点已经被现在的大多数学者所接受。
  自动作文评分系统综合运用了统计学方法、自然语言处理技术、信息检索技术以及文本聚类技术等。其中最重要的统计技术又包括了简单的关键字分析、特殊文本特征分析、潜在语义分析及文本归类技术。
  (一)特定文本特征分析技术
  这一技术最初于1966年被Page用于PEG系统当中。Page认为作文的特征是由文本特征所表现出来的,且这些文本特征可以被衡量。举例来说,在一段文字可以通过它的句子长度来表现,句子结构的复杂程度可以通过介词及关系代词等词汇的数量来量化考察。而作者的词汇水平可以通过检测文章中词汇长度的变化情况得出相应结果。为了实现AES系统,Page运用变量分析法,其中变量即为可被计算机直接量化并计算的特定的文本特征。
  (二)潜伏语义分析技术
  潜伏语义分析技术的中心思想十分简单,一方面段落的含义很大程度上决定于其中所包含的词汇,一旦一个词汇被替换掉,整个段落的意思都可能会发生改变。另一方面,两个段落的意思与两个段落间所包含的不同词汇有着很大的关系。简而言之即为:词义1+词义2+……+词义n=段义。
  潜伏语义分析是一个被用于文本索引及信息检索的复杂技术,它的稳健性很好且可以帮助找出不同文本中的词汇间的潜在关系。在潜伏语义分析技术中心,它将每一篇文章做一个特定的向量,列向量对应于文本特性而行向量对应于文本特征如词、句、段等。对文章评分贡献不大的词汇就会被舍去以降低研究范围、减小计算量。
  (三)自然语言处理技术
  这一技术最早被应用于E-rater系统中,这一系统运用此技术来分析文章中的每个句子。举例来说,词性标注器赋予了每个单词以词性,尔后在文本分析器中分析句子结构,在分析仪中分析了文章的段落结构。运用了这项技术的评分系统中包含五个独立模块来完成评分。它们中的三个通过识别特征作为评分标准,它们是句法模块、段落模块及主题分析模块,分别用以分析句法复杂性、行文思路以及词汇能力。第四个模块是选择分配各个特征所占据的权重,最后一个模块用以综合计算最终的分数。
  (四)文本归类技术
  这一技术主要用于对文章中所出现的词汇、句法等元素进行分类提取,并建立出相应的语料库,用于为评分系统提供一个基本数据库来提取要素并进行比对分析,再结合其他方法进行最终的评分。
  随着计算机技术的发展,自动作文评分系统逐渐走向完善,随着技术的提升以及语言学方面通过语篇分析得到的要素提取,自动作文评分系统也越来越广泛地为大范围的语言测试提供了可靠的分数测评。尽管如此,自动作文评分系统同人工评分仍有着不小的差距,怎样减小个体的误差,更准确更具针对性的进行评分,这是下一步自动作文评分系统的发展方向,相信随着人工智能技术的日益进步,未来的自动作文评分系统会更加完备,能够早日让人类放心地将作文批改的任务完全交付于计算机。
  [责任编辑:曾 菡]
其他文献
MasterImage3D近日发布全新3DCELL平板电脑。该平板电脑采用基于OMAP4430应用程序处理器的移动软件开发平台PandaBoard。MasterImage3D借助德州仪器公司的OMAP^TM 4应用平台
[摘 要] 自2015年以来,“供给侧改革”成为各方关注的焦点,国家领导人也在各种场合多次提及,要加强供给侧结构性改革,要在供给侧和需求侧两端发力促进产业迈向中高端。从2016年春节国人境外消费600亿元人民币,折射出国民追求更高质量产品、更高质量生活的迫切愿望,凸显出我国制造业供给侧改革的必要性和迫切性。  青岛是我国家电行业的重要制造、研发基地,如何在严峻的国内、国际环境下谋求发展,如何有效推
[摘 要] 知识经济环境下,人力作为知识的载体,具有资产与资本的双重属性。本文从人力资源价值分析入手,对其会计体系中的资产与权益的确认、成本价值的计量进行了深入研究,并提出了相关的表内外报告与披露内容框架。  [关键词] 知识经济;人力资源;确认计量;劳动者权益  [中图分类号] D829.1 [文献标识码] A [文章编号] 1002-8129(2017)01-0079-05  一、引言  在知
[摘 要] 智库研究应以问题研究为导向,以服从党委政府决策为目标,因此必须做到把脉区域全局问题,因地制宜建言献策;选好研究课题,提高建言献策质量。尤其是高校智库人员,更应走出校门调研,撰写建言献策的精良作品,即针对新问题要敢于创新,善于突破,对经济社会发展过程中出现的不良现象,要选好切入点,把握准确事实,以提供国家管理借鉴。  [关键词] 高校智库;建言献策;决策  [中图分类号] C934 [文
知识经济时代,企业的管理模式发生了深刻的变革,其核心竞争力已经全面转向知识和科技。因此,如何对知识型员工实施有效的绩效管理,并激发其效率潜能,进而革新整个绩效考评体
微课作为新时代多媒体教学手段的一种受到了广大教师的推崇和热爱,以下,本文以初中语文教学中微课的运用实践为题,深度探讨微课学习的利与弊。
该文对目前国际上现有的低碳认证的两种类型进行了介绍,并对认证的必要性、认证的存在问题及发展进行了深入浅出的阐述,以期对相关企业开展低碳认证提供思考和借鉴。
《電子质量》:在您看来,中仪协在电子仪器行业中主要担当怎样的角色?发挥什么样的作用?
[摘 要] 本文首先对产业投资基金进行最基本的概述,从产业投资基金的概念,特点,必要性和运作方式入手进行解释,然后结合新形势下我国能源产业的发展现状及问题,探索发展能源产业基金的可能性与必然性,为解决新形势下我国能源产业发展的问题提供可行性建议。  [关键词] 产业投资基金;金融;市场  [中图分类号] F203 [文献标识码] A [文章编号] 1002-8129(2017)01-0101-04
该文主要介绍一种基于Delta-Sigma的DDS,通过分析Delta-Signm波形产生技术,提出了Delta—Sigma频率源实现方案,并在MATLAB和FPGA实验板上分别验证了其优点和可行性,用高阶的Delta