俄汉语言学术语平行语料库的建设与初始研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:marine_ogz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库的研究最早要追溯到上世纪60年代,随着计算机技术的不断发展,语料库的研究也在不断推进,逐渐形成了语料库语言学。国外对平行语料库的研究已有二十多年的历史,大量西方语言之间的研究都基于平行语料库。到上世纪90年代,英汉平行语料库开始快速发展,国内已经建成规模约3000万句对的大型句对齐英汉双语平行语料库。相比之下,俄汉双语平行语料库的研究还很滞后。在本论文中,作者将从建设平行语料库的准备工作开始,逐步讲述建设句子层面对齐的俄汉语言学术语平行语料库的过程,并对自建平行语料库中抽取出的两字词俄语语言学术语词条进行句法模式分析。因此,本文的选题具有较重要的研究与应用意义。本文将以作者自建的“俄汉语言学术语平行语料库”为例,探讨小型俄汉平行语料库的建设与初步研究。文章主要分为四个章节。第一章为文献综述,第二章具体阐述俄汉语言学术语平行语料库的语料加工步骤,包括:(1)简要介绍俄汉语言学术语语料选取的标准及所选书籍的概述;(2)实体书籍的扫描;(3)分别阐述三种OCR软件对俄汉双语的识别率,选择其中最高效的软件完成语料的收集;(4)对俄汉双语语料进行文字校对、标点符号统一、格式转换等。第三章介绍了通过软件Deja vu X2建设平行语料库的方法,包括对齐软件的操作、句对的保存和记忆库的建立等,最后实现俄汉双语语料的句对齐。第四章主要研究在建成句对齐的俄汉语言学术语语料库的基础上,人工抽取的两字词俄语语言学术语词条,并对其进行句法模式分析,得出覆盖率80%以上的两字词俄语术语句法模式为:名词+名词,形容词+名词,形动词+名词,为今后的俄语语言学术语自动抽取工作打下基础。最后,对研究进行总结,反思收获与不足。
其他文献
起源于先秦,盛行于秦汉的郎官在中国历史上沿着由内向外和由高向低的两种趋势发展、演变。"由内向外"即指郎官从侍卫、参谋的天子近臣逐步给事外朝官吏,诸郎名称与其给事的官
有些烟民早晨睡醒后喜欢抽一支,美国一项最新调查发现,这种“起床烟”会显著增加患肺癌及口腔癌的风险。文章发表在美国《癌症流行病学、生物标志和预防》杂志上。宾夕法尼亚
期刊
<正>1物联网概念与发展1.1物联网的概念物联网的概念于1999年提出,物联网是"物物相连的互联网"。物联网的英文名称是The Internet of Things。物联网是在计算机互联网的基础
智能车辆,即车辆智能化,是未来车辆技术的主体发展方向,是车辆技术与控制、信息、人工智能等技术融合的结果,将极大提高车辆的安全性和自主性,改善现有的车辆操控方式。车辆
按照"字形———字义———先秦学校情况"三步式对先秦的几个常用的学校称谓字进行论述,以求理清称谓字的本义及其演变,了解先秦学校的概况。学校自殷商时代就已经存在。金文
“情境营造”是舞台表演艺术的重要组成部分,也是舞蹈表演中演员塑造角色形象、充盈内心情感、实现作品呈现的重要手段与途径。本文结合个人学位专场的表演实践分析,从三个部分对舞蹈表演中的“情境营造”进行研究,阐述了“情境营造”和舞蹈表演中的“情境营造”的基本概念及内涵。以专场表演中的舞蹈作品为例,通过了解舞蹈角色所处的时空环境、梳理舞蹈情节发展的内在逻辑、把握人物关系引发的情感体验、体验灯服道效的情景氛围
目的改进GB/T 18204.26《公共场所空气中甲醛测定方法》中的酚试剂分光光度法测定空气中甲醛含量影响条件。方法对显色温度和显色时间、入射光波长及显色剂酸度等几个方面进
探讨家庭护理干预在合并吞咽障碍脑梗死患者中的应用效果。选取收治的90例脑梗死伴有吞咽困难患者,按照数字随机分组法分为两组,各45例,对照组采用常规的护理模式进行护理,观察组
<正>产权明晰可以通过自由交易实现资源优化配置,因其权威性,科斯定理的这一思想在知识产权领域的应用很少受到人们的质疑。本文拟从知识产权特性出发,分析科斯定理产权黑箱
现代学徒制是当前职业教育研究的热点,它要求课程从注重知识向关注生活转变,将课程内容融入学生的生活,从而增强社会适应性。课程的主体应以人与自然、社会、文化、自我为内