论文部分内容阅读
【摘要】语料库自上世纪面试以来,取得了突飞猛进的发展,目前不少组织进行学术交流时,会遇到一定的语言障碍,外语专业人员缺乏相关专业知识,很难能够快速的对于这些专业词汇进行转述,所以需要借助语料库来进行辅助,在科技文本的翻译过程中。通过语料库这种媒介,能够促进习总书记所说的“努力提高国际话语权”和“中国方案”的建设,提供中外语言交流的参考规范。由于科技文本的规范性,严格性,语料库的应用能够有效解决文体僵化,用词简单的问题。语料库的建设当前还存在着一些问题,比如程序设计,平台搭建,语言处理等。这些问题都是由于设计不规范,目标不明确等原因所导致的。本文通过快速,通用,有效的方法,能够一定程度上解决以上所遇到的语料库建设问题,探索一种适合于广大院校和学术机构的语料库建设方法,使语料库能够真正为人们所使用。
【关键词】语料库;科技文本;语言处理
【作者简介】官小龙(1989- ),男,汉族,山东青岛人,研究生,文学碩士,山东科技大学外国语学院英语笔译专业,研究方向:计算机辅助翻译,语料库研究,人工智能。
1.语料库(corpus)自上世纪初出现以来,伴随着统计机器翻译取得的突破性进步,于二十世纪八十年代开始繁荣发展。进入二十一世纪后,语料库发展进入了3.0时代,诸如美国当代英语语料库,柯林斯语料库,以及国家语委现代汉语语料库,《人民日报》标注语料库等的相继建立,北京大学,复旦大学,北京外国语大学以及北京语言大学等高校也开展的语料库研究。近期由中国外文局和中国翻译协会主持建设的中国特色话语对外翻译标准化术语库平台,作为国家级多语种权威专业术语语料库,收录了中国最新政治话语、马克思主义中国化成果、改革开放以来党政文献,为对外传播翻译提供术语及相关知识的数据资源,确立国家主导的中国特色话语外译标准,推动了“一带一路”国家之间的沟通和交流。
2.目前不少机构和组织,在进行国际学术交流时,由于计算机科学等科技外语专业程度较高,会遇到一定的语言障碍,外语专业人员缺乏相关专业知识,很难能够快速的对于这些专业词汇进行转述,所以需要借助语料库来进行辅助。但是目前计算机类语料库比较匮乏,而计算机科学兴起于国外,中文文献又多借鉴外文研究成果,中国作者所译著的计算机科技论文标题和摘要僵化,用词简单重复,这种不平衡的现象,严重阻碍了中外学术交流,使得中国优秀的学术成果无法传播到世界,而世界优秀的学术成果又无法准确的传达给国内专业学习者。
从以上现状分析可以看出,虽然国内外已经着手进行了相关大型语料库的建设,并取得了阶段性成果。但因为科技英语翻译涉及专业知识面广,专业化较强,需要诸如计算机类语料库等科技语料库来进行辅助翻译,但目前针对科技英语翻译的语料库较少,科技翻译不规范的现象仍然存在,因而亟需进行英汉科技文本语料库的研究和建设以满足各行各业之间交流的需要。
1.语料库能够有效地充当媒介,对于加强国内外相关领域的交流具有十分重要的意义。语料库的建设可以对科技文体的翻译进行有效辅助,而科技文本翻译的发展又可以有效解决科技领域学术不平衡的现象。自十九大以来,习近平总书记曾多次强调要“努力提高国际话语权”,并提出“中国方案”的建设。而话语权的提升,不仅仅是军事,经济,文化方面的提升,在科技方面话语权的提升也同样重要,“中国方案”融通中外语言,确保国际社会“听得懂”(孙敬鑫,2016)。而翻译得当是保证“听得懂”的大前提,通过科技语料库的建设,能够将各个高校及机构的已有的优秀翻译成果结合在一起,从而形成足够的力量,让国际社会真正听得懂,看的懂“中国方案”。
2.语料库的研究具有十分重要的实践意义。语料库能够提供翻译过程中权威的参考规范,帮助翻译人员选择合适的词语和搭配。同时语料库也能够有效应对科技翻译过程中出现的文体僵化,用词简单的问题,让国内外学术成果的翻译能够做到规范化,标准化。另外,语料库作为高校以及各类机构学术资产的一部分,能够收集译员和学生日常翻译以及曾经使用过得术语, 并加以整理,最终可作为教员日常教学的重要参考。
1.语料库的程序设计以及平台搭建是语料库建设中所遇到的问题之一,自然语言处理一直以来都是计算机程序设计的难题之一,由于计算机只能按照一定规则来执行程序,处理自然语言需要建立相应的数学模型来规定计算机处理自然语言的方式。本项目语料库需要同时对英汉两种文本进行处理,在设计算法时不仅要考虑到不同语言之间的差异,还要从功能对等的角度出发,以解决语料库的双语对齐问题。
2.语料的筛选与录入时亦是语料库建设中问题,由于语料库的中的语料是一种“集约化”的丰富的共享语料资源。考虑到语料库的运行和查询速度等因素,语料库并不是越大越好。因而采集时应严格进行甄别,以尤金·奈达的功能对等理论作为参考,对于专业性非常强的术语要进行严谨的考证,避免不规范的语料录入至语料库中,同时形成定期的审查机制,保证语料录入的规范化。
本文次提出探索一种建设语料库规范、快速、通用的方法。尝试运用软件工程的相关理论,从需求分析开始,到语料库模型设计,程序实现以及网络平台的搭建,到最后的测试交付,使语料库的建设也能够实现流程化,规范化,产品化。
1.需求分析与语料采集的研究:在本阶段主要针对语料库使用者,即译者进行调查与分析,以译者为中心对语料库的功能进行规划,并与语料库语言学的理论相结合,设计既适合翻译工作者使用,同时也能遵循科学方法的语料库概念模型。此外,对科技类文本,尤其是计算机类语料进行收集,语料范围包括词、句、段、篇章。
2.进行语料库的程序设计以及平台搭建的研究:以.NET平台作为本次语料库所使用的技术平台,SQL Server为语料库所使用的数据库技术软件,而ASP.NET作为网页设计平台,在语料库软件中设计相应的匹配算法和概率模型,以多表查询实现双语对齐查询,而概率模型则是以统计模型为设计核心,计算出特定词在短语、句、段以及篇章中的使用概率情况,并以图表的形式显示。语料库则以网页的形式进行呈现,供使用者进行查询。
3.语料筛选与录入的研究:以一定大小的语言样本代表着某一研究中所确定的语言运用总体。筛选出可以作为参考的语料样本,语料元素具有概括性,通用性,准确性,权威性,录入时进行标注,保证详尽性与可行性的统一。
4.语料库的使用和测试:完成语料库的设计工作后,需要对语料库进行功能性测试,测试语料库各项功能能够正常稳定的实现,以满足语料库的开发切实满足使用者的要求。
语料库发展至今已有数十年历史,而国内外学术交流活动由于语言的问题,仍存在一定的障碍。而十九大之后“中国方案”的建设,离不开语料库等工具的发展。而当下英汉科技翻译中,文体僵化等问题依然存在,语料库建设中也会遇到诸如程序设计,平台搭建,语言处理等问题,通过规范、快速、通用的方法,从需求分析,程序设计到筛选,录入以及测试,最终实现语料库的建设,使建成的英汉科技文本语料库能够真正服务语言服务提供者。
参考文献:
[1]许家金.语料库研究学术源流考[J].外语教学与研究,2017(1):51-63.
[2]邹永利.学术文献的文体特征及其检索意义——计算机科学文献与相关新闻报道文体的比较研究[J].中国图书馆学报,2014(2): 33-40.
[3]孙敬鑫.借“中国方案”提升国际话语权[J].理论视野,2016(4): 10-12.
[4]于连江.基于语料库的翻译教学研究[J].外语电化教学,2004(2): 40-44.
[5]崔刚,盛永梅.语料库中语料的标注[J].清华大学学报:哲学社会科学版,2000(1):89-94.
[6]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.
【关键词】语料库;科技文本;语言处理
【作者简介】官小龙(1989- ),男,汉族,山东青岛人,研究生,文学碩士,山东科技大学外国语学院英语笔译专业,研究方向:计算机辅助翻译,语料库研究,人工智能。
一、引言
1.语料库(corpus)自上世纪初出现以来,伴随着统计机器翻译取得的突破性进步,于二十世纪八十年代开始繁荣发展。进入二十一世纪后,语料库发展进入了3.0时代,诸如美国当代英语语料库,柯林斯语料库,以及国家语委现代汉语语料库,《人民日报》标注语料库等的相继建立,北京大学,复旦大学,北京外国语大学以及北京语言大学等高校也开展的语料库研究。近期由中国外文局和中国翻译协会主持建设的中国特色话语对外翻译标准化术语库平台,作为国家级多语种权威专业术语语料库,收录了中国最新政治话语、马克思主义中国化成果、改革开放以来党政文献,为对外传播翻译提供术语及相关知识的数据资源,确立国家主导的中国特色话语外译标准,推动了“一带一路”国家之间的沟通和交流。
2.目前不少机构和组织,在进行国际学术交流时,由于计算机科学等科技外语专业程度较高,会遇到一定的语言障碍,外语专业人员缺乏相关专业知识,很难能够快速的对于这些专业词汇进行转述,所以需要借助语料库来进行辅助。但是目前计算机类语料库比较匮乏,而计算机科学兴起于国外,中文文献又多借鉴外文研究成果,中国作者所译著的计算机科技论文标题和摘要僵化,用词简单重复,这种不平衡的现象,严重阻碍了中外学术交流,使得中国优秀的学术成果无法传播到世界,而世界优秀的学术成果又无法准确的传达给国内专业学习者。
从以上现状分析可以看出,虽然国内外已经着手进行了相关大型语料库的建设,并取得了阶段性成果。但因为科技英语翻译涉及专业知识面广,专业化较强,需要诸如计算机类语料库等科技语料库来进行辅助翻译,但目前针对科技英语翻译的语料库较少,科技翻译不规范的现象仍然存在,因而亟需进行英汉科技文本语料库的研究和建设以满足各行各业之间交流的需要。
二、意义
1.语料库能够有效地充当媒介,对于加强国内外相关领域的交流具有十分重要的意义。语料库的建设可以对科技文体的翻译进行有效辅助,而科技文本翻译的发展又可以有效解决科技领域学术不平衡的现象。自十九大以来,习近平总书记曾多次强调要“努力提高国际话语权”,并提出“中国方案”的建设。而话语权的提升,不仅仅是军事,经济,文化方面的提升,在科技方面话语权的提升也同样重要,“中国方案”融通中外语言,确保国际社会“听得懂”(孙敬鑫,2016)。而翻译得当是保证“听得懂”的大前提,通过科技语料库的建设,能够将各个高校及机构的已有的优秀翻译成果结合在一起,从而形成足够的力量,让国际社会真正听得懂,看的懂“中国方案”。
2.语料库的研究具有十分重要的实践意义。语料库能够提供翻译过程中权威的参考规范,帮助翻译人员选择合适的词语和搭配。同时语料库也能够有效应对科技翻译过程中出现的文体僵化,用词简单的问题,让国内外学术成果的翻译能够做到规范化,标准化。另外,语料库作为高校以及各类机构学术资产的一部分,能够收集译员和学生日常翻译以及曾经使用过得术语, 并加以整理,最终可作为教员日常教学的重要参考。
三、语料库发展的问题
1.语料库的程序设计以及平台搭建是语料库建设中所遇到的问题之一,自然语言处理一直以来都是计算机程序设计的难题之一,由于计算机只能按照一定规则来执行程序,处理自然语言需要建立相应的数学模型来规定计算机处理自然语言的方式。本项目语料库需要同时对英汉两种文本进行处理,在设计算法时不仅要考虑到不同语言之间的差异,还要从功能对等的角度出发,以解决语料库的双语对齐问题。
2.语料的筛选与录入时亦是语料库建设中问题,由于语料库的中的语料是一种“集约化”的丰富的共享语料资源。考虑到语料库的运行和查询速度等因素,语料库并不是越大越好。因而采集时应严格进行甄别,以尤金·奈达的功能对等理论作为参考,对于专业性非常强的术语要进行严谨的考证,避免不规范的语料录入至语料库中,同时形成定期的审查机制,保证语料录入的规范化。
四、语料库建设思想
本文次提出探索一种建设语料库规范、快速、通用的方法。尝试运用软件工程的相关理论,从需求分析开始,到语料库模型设计,程序实现以及网络平台的搭建,到最后的测试交付,使语料库的建设也能够实现流程化,规范化,产品化。
五、语料库建设步骤
1.需求分析与语料采集的研究:在本阶段主要针对语料库使用者,即译者进行调查与分析,以译者为中心对语料库的功能进行规划,并与语料库语言学的理论相结合,设计既适合翻译工作者使用,同时也能遵循科学方法的语料库概念模型。此外,对科技类文本,尤其是计算机类语料进行收集,语料范围包括词、句、段、篇章。
2.进行语料库的程序设计以及平台搭建的研究:以.NET平台作为本次语料库所使用的技术平台,SQL Server为语料库所使用的数据库技术软件,而ASP.NET作为网页设计平台,在语料库软件中设计相应的匹配算法和概率模型,以多表查询实现双语对齐查询,而概率模型则是以统计模型为设计核心,计算出特定词在短语、句、段以及篇章中的使用概率情况,并以图表的形式显示。语料库则以网页的形式进行呈现,供使用者进行查询。
3.语料筛选与录入的研究:以一定大小的语言样本代表着某一研究中所确定的语言运用总体。筛选出可以作为参考的语料样本,语料元素具有概括性,通用性,准确性,权威性,录入时进行标注,保证详尽性与可行性的统一。
4.语料库的使用和测试:完成语料库的设计工作后,需要对语料库进行功能性测试,测试语料库各项功能能够正常稳定的实现,以满足语料库的开发切实满足使用者的要求。
六、总结
语料库发展至今已有数十年历史,而国内外学术交流活动由于语言的问题,仍存在一定的障碍。而十九大之后“中国方案”的建设,离不开语料库等工具的发展。而当下英汉科技翻译中,文体僵化等问题依然存在,语料库建设中也会遇到诸如程序设计,平台搭建,语言处理等问题,通过规范、快速、通用的方法,从需求分析,程序设计到筛选,录入以及测试,最终实现语料库的建设,使建成的英汉科技文本语料库能够真正服务语言服务提供者。
参考文献:
[1]许家金.语料库研究学术源流考[J].外语教学与研究,2017(1):51-63.
[2]邹永利.学术文献的文体特征及其检索意义——计算机科学文献与相关新闻报道文体的比较研究[J].中国图书馆学报,2014(2): 33-40.
[3]孙敬鑫.借“中国方案”提升国际话语权[J].理论视野,2016(4): 10-12.
[4]于连江.基于语料库的翻译教学研究[J].外语电化教学,2004(2): 40-44.
[5]崔刚,盛永梅.语料库中语料的标注[J].清华大学学报:哲学社会科学版,2000(1):89-94.
[6]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.