论文部分内容阅读
本文在传统蒙古语语法研究成果的基础上,运用计算语言学理论与方法,从100万词级现代蒙古语语料库中,选取小学语文部分的所有简单陈述句(990句)进行了句子分析,着重观测句子结构、句型的种类、各种句型的使用频度等,建立了现代蒙古语简单陈述句句子分析语料库。该库包含句子成分的分界、句子成分的排列顺序、句子成分所处的层次、句子成分的构成要素、句型、句例等几方面信息,在此基础上,构建了现代蒙古语简单陈述句句型库。根据现代蒙古语简单陈述句句子分析语料库,分别归纳了主语、谓语、定语、宾语、状语五种句子成分的判定规则,建立了现代蒙古语简单陈述句句子成分识别规则集。其中,主语识别规则有72条、谓语识别规则有94条、宾语识别规则有73条、定语识别规则有50条、状语识别规则有69条、非句子成分的识别规则有26条。基于该规则集,研制了现代蒙古语简单陈述句句子成分的自动标注程序,在100万词级现代蒙古语语料库的部分简单陈述句(6300句)上做了句子成分自动标注的尝试,准确率初步达到了85.6%。全文共5章。第1章,导论,简要介绍了现代蒙古语简单陈述句句型的研究意义、研究基础、研究方法以及本文预期达到的目标等。第2章,对本文涉及的理论背景问题进行了简要说明。第3章,阐述了句子分析方法和现代蒙古语简单陈述句句子分析语料库的构成形式等。第4章,介绍了现代蒙古语简单陈述句句型库的构建过程和实际内容。第5章,描述了建立现代蒙古语简单陈述句句子成分识别规则集的方法以及研制现代蒙古语简单陈述句句子成分自动标注程序的过程。结论,总结全文并提出了对现代蒙古语句型研究今后工作的展望。总之,本文研究属于蒙古文信息处理基础研究范畴,现代蒙古语简单陈述句句型库和句子成分自动标注程序都是蒙古文信息处理基础建设不可缺少的知识资源和工具。从宏观上来看,分析句子、标注句子成分、确认句型是实现机器翻译、自然语言理解等重要应用环节的必经之路;从微观上来说,它们所提供的知识资源对校验句子成分的搭配关系、判断句子结构的完整性等都会起到积极的作用。