论文部分内容阅读
蒙古语话语标记是处于句子之外表达程序意义,能对话语的理解起到引导作用的词、短语和习惯表达式。它们形式多样,功能复杂,从而影响句法分析的效果。因此,对蒙古语话语标记进行研究有着重要的理论意义和实践价值。本文主要研究的内容有:1)蒙古语话语标记的界定和分类蒙古语话语标记是一个复杂的语言现象,对它的界定和分类问题需要多层次、多角度的研究和分析。本文根据句法的可分离性、语义的程序性、功能的元语用性,总结出蒙古语话语标记的特征,把蒙古语话语标记分为14类,并对每一类话语标记的语用功能进行了说明。2)蒙古语影视剧语料库的构建如何构建蒙古语影视剧语料库直接影响到话语标记的研究价值,它反映了在其基础上开展的研究是否具有合理性和可靠性。在这方面,本文围绕与语料库构建密切相关的语料库设计、语料收集、语料的组织结构等问题进行了研究。蒙古语影视剧语料库的设计方面介绍了建库的目的和思路;语料的收集方面,围绕语料的代表性和平衡性问题,对语料的分类和比例、分布和样本的选取、语料的流通度等进行了探讨;语料组织方面,对语料的存储格式、数据信息和软件工具进行了介绍。3)蒙古语话语标记的自动标注和实验分析本研究旨在提高句法分析的准确率以及为篇章分析提供连贯性显化信息,对蒙古语影视剧语料库中出现的话语标记进行语用功能的自动标注。本文在蒙古语话语标记语用功能分类基础上,制定了蒙古语话语标记自动识别规则,开发了蒙古语话语标记标注系统。第一,根据话语标记的形式特征,经过运算和推导获得话语标记的词法结构信息。第二,从语料库中人工筛选出话语标记,将它们存入基本词表,对其语用功能给出相应的代码,建立符合每一类话语标记特征的标注规则。第三,根据规则开发话语标记自动标注系统,对影视剧语料库中的话语标记进行自动标注。实验结果表明,该系统对30万词级影视剧语料库进行标注后,召回率为54.26%,准确率为85.58%。4)存在的问题和解决方案就测试结果来看,召回率和准确率都不是很高,究其原因,主要有以下几方面。第一,规则对兼类话语标记的识别率不高。第二,由于受语料内容、题材、规模等方面的限制,话语标记的出现频率影响了话语标记的召回率。第三,不符合语言事实的垃圾字串,影响话语标记的召回率。第四,蒙古语影视剧语料库的加工程度严重制约了蒙古语话语标记自动标注的准确率。针对上述问题,我们在后续工作中,准备从以下几方面对系统进行改进和完善。首先,扩充训练集的语料规模,使语料库更为贴近语言事实。其次,完善机器词典,增加信息含量。最后,在基于规则的算法上加入统计模型。综上所述,本文在话语标记相关理论和实践方面的研究成果上,以蒙古语影视剧语料库中的话语标记为研究对象,对蒙古语话语标记的界定和分类、蒙古语话语标记的自动标注和实验分析以及存在的问题和解决方案等问题进行了研究。全文共分为五章。第一章介绍了国内外话语标记的相关理论和实践方面的研究成果,以及本研究的方法、意义以及创新点。第二章主要对蒙古语话语标记的涵义、存在动因和形成条件、蒙古语话语标记的语用功能分类体系等相关问题进行了探讨。第三章针对蒙古语影视剧语料库的设计、代表性和平衡性、语料库的组织结构等问题进行了研究。第四章在蒙古语话语标记语用功能分类基础上,开发了蒙古语话语标记标注系统并提取了实验数据。第五章对全文进行了概括总结后指出了本研究的不足,同时对今后的工作指明了方向。