俄语现代标注语料库的理论与实践

来源 :中国人民解放军外国语学院 | 被引量 : 1次 | 上传用户:xu9865
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代科学的重要特征之一就是学科的交叉和融合,而语言学也积极与其它学科交叉,涉及心理学、计算机、哲学、脑科学、生物学等多门学科。语料库语言学即为一门集语言学理论、数学思维模式和计算机技术为一体重要交叉学科。语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料进行研究和利用的方法。从方法论的角度而言,语料库方法不仅可以用于研究语言系统的各个层面,描写语言的语法结构、词汇、语义和语用等多层次的信息,并依据从语料库中所提取的语言事实验证现行的语言学理论模型,形成新的学术观点;而且可以应用于语言学的其他领域,如机器翻译、信息检索、语音输入等。20世纪80年代,语料库语言学的研究进入一个迅速发展的新时期,由于计算机硬件的发展与普及和软件的开发与运用,以计算机检索为手段、以电子文本为主要内容的计算机语料库纷纷建立。世界范围内语料库的建设和研究人员大多集中在以英语为母语的国家,从英语语料库建设和语料库语言学研究的情况来看,主要有以下几个特点:1)基于不同的研究目的,语料库的类型丰富多样;2)由于英语语料的采集最方便,因而语言语料库的语料收集范围广,内容充实;3)英语语料库语言学研究的领域宽泛、全面,涵盖了从自然语言处理、词典编纂到基于语料库的语音分析、语音识别和合成、词语研究、词语搭配分析、词法分析、句法分析、语篇分析、语用及话语分析、学习者语言分析、语言教学、文化及翻译研究以及语言对比研究等众多领域。上述这些特点包含着传统语言学成果的运用、现代语言学理论和研究方法的支持以及信息技术的高速发展,英语语料库成为世界语料库语言学学科形成的基础,这也是历史发展的必然。俄罗斯的语料库研究虽然落后于西方,但是在新千年前后得到了长足的发展,建立了一些大型的采集各种各样语料、具有不同处理层次、包含各种标注信息、以不同方式进行标注的语料库,例如二十世纪俄文报刊语料库(КомпьютерныйкорпустекстоврусскихгазетконцаXXвека),而规模最大的当推俄语国家语料库(Национальныйкорпусрусскогоязыка),现已采集3500万词次的语料,其最终目标是达到2亿词次。虽然现代俄语语料库语言学对建库方式和原则没有统一的规范,但是对俄语语料库基础理论和实际应用的研究,可以为国内俄语学者利用语料库进行各种语言学课题研究提供极具参考价值的重要资源,对俄语学习和教学也大有裨益。因此,本文的研究目标为勾勒俄罗斯语料库语言学的总体概貌,重点研究俄语国家语料库的建库技术以及俄语语料库在语言学研究中的实际应用。也就是说,本文从理论研究和实例分析两个方面对不同类型的语料库进行系统、详细的研究。此项较大规模专题研究在国内俄语界中尚属首次,在一定程度上具有理论和实践价值,这正是本文的新意所在。本文的研究任务是:1)力求宏观审视俄语语料库语言学的发展历史;2)深入研究俄语标注语料库、尤其是俄语国家语料库的建库原则和技术,探讨利用俄语标注语料库进行语言学研究的方法;3)尝试编制程序服务于已标注俄语语料库的手工消歧工作。全文由6部分组成,包括绪论、四章和结束语。在绪论部分,我们简要叙述语料库和语料库语言学的基本常识,厘清语料库语言学的学科定义,同时涉及世界语料库的发展历史和当今语料库的地位;阐述本文研究的现实意义、研究目的、研究任务、研究方法、论文新意、理论意义与实践价值等。由于国内俄语学界对语料库的研究范围相对狭窄,相关研究成果比较缺乏,因此我们确定本文的研究目标是:从俄语语料库语言学理论出发,结合各个相关学科(如词法学、语义学)的理论和观点,对俄语语料库的理论研究和建库技术进行深入剖析。第一章《俄语语料库研究概述》首先简要介绍俄语语料库的发展历史,我们认为现代俄语语料库建设的指导思想主要是实用主义,其目的为了满足俄罗斯语言学各种研究的实际需求;然后我们对有代表性的网络上可访问的ХАНКО、ТК、КГТ、НКРЯ等4个大型标注语料库的发展历程和建库规模加以介绍,并从词法、句法、语义标注三个方面进行详细的对比;最后我们以实例分析为主,力图揭示ХАНКО、ТК、КГТ、НКРЯ的搜索功能在词法上的差别,而这正是俄语语料库用户在实际利用过程中必须注意的问题。第二章《俄语国家语料库的词法标注》我们从俄语语言单位的两种标注方法——“外部形态分析法”和“深度语义分析法”的区别入手,分析俄语国家语料库采用的词法标注方式、词法标注的类别和结构、词法标注的步骤和原则。根据НКРЯ的语法范畴选择图中的特殊标注,我们将注意力放在这些标注与《俄语语法词典》中的词法标注模型相偏离而难以自动标注的例外词形和非标准的语言现象上,认为只有对这些偏离的语言现象进行广泛深入的研究,才能不断发展词法标注系统并完善机用语法词典。第三章《俄语国家语料库的词汇语义标注》主要是从语义层次来研究НКРЯ的词汇语义标注体系,首先介绍НКРЯ词汇语义标注的模型基础和语义标注类别;然后从计算机处理的实际出发,研究语义歧义的分类,指出同形异义词和词语的不同义项在НКРЯ中是处于同一个语义平面上的,因而不可避免地造成语义歧义。为了解决语义消歧的问题,我们重点探讨利用过滤器进行语义消歧的方法。在本章最后,我们还利用语义标注进行语言实例研究,展现通过语义标注所能发掘的语言知识的深度。第四章《标注语料库的手工消歧工具设计》作为本文研究的实验模拟,本章首先对语料库的XML标注语言和标注赋码进行充分研究;然后利用Microsoft Visual Basic 6.0程序语言设计开发手工消歧工具,旨在服务于标注语料库的后处理工作。这种工具对于面向计算机的语言信息处理和面向人的语言教学,均具有重要的实践价值。在结束语部分,扼要归纳全文研究的主要内容,并针对俄语语料库研究与应用的基本问题提出建设性意见,认为该学科还有待于进一步拓展的广阔学术空间;同时期望俄语语料库的研究成果能够为国内俄语学者所积极享用,为新信息技术条件下我国的俄语语言文学研究和教学注入新的活力。
其他文献
写作是英语学习中最为复杂的学习项目,学习者在提高写作技能时经常遇到比提高其他技能更多的困难。在中国,不论是英语专业的学生还是非英语专业的学生在英语写作当中都经常出
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>早期股骨头缺血性坏死X线片无明显改变。随着病情发展,X线片可见:股骨头表面粗糙,凹凸不平,边缘不清,股骨头变扁变平,呈蘑菇状,不规则改变;骨小梁模糊、扭曲、粗细不均、
机组一次调频性能的优劣以及投入情况直接影响着相应电网的频率控制水平。介绍了江苏电网一次调频测评工作开展的背景,着重介绍了江苏电网目前的一次调频性能测试系统的原理
在当前,只有深入理解群众问题,才能真正走好群众路线。历史地看,每个人在群众与敌对者之间都可能是变化的,在群众和精英之间的区别都是相对的。在社会历史发展中,群众比单个
为了解古地貌与油气成藏的关系,以安塞油田南部地区为例,利用该地区丰富的钻井与测井资料,采用印模法恢复了该地区侏罗纪古地貌形态,并在此基础上详细分析了古地貌对延安组成
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
白云西洼X1井的PVT实验报告中将"油样"Oil1命名为"近临界流体",为了解决该流体到底属于何种流体相态类型这一问题,首先尝试用常规方法进行流体相态判别,Oil 1均判定为凝析气
本文首先分析了旅(团)防空C3I系统的任务和功能要求,建立了用于系统作战效能评估的指标体系,并对各指标效用值、权值的计算进行详细的讨论,最后给出实用的基于MADM的作战效能
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield