论文部分内容阅读
随着计算机的广泛使用和互联网的迅猛发展,人类已经迈向了信息化的社会。利用计算机进行信息处理已经成为这个时代的主旋律。藏文信息处理的研究经过“字”处理迈向“语”处理,在理论探索、基础知识库和语料库等方面的建设取得了较大的成绩,但相对快速膨胀的实际需求而言,藏文信息处理技术依然滞后于实际需求,其中主要的原因是我们为计算机储备的语言知识不够。语言知识库是自然语言处理系统的重要组成部分,其规模与质量是自然语言处理系统成败的关键。对于藏语来说,尤其重视语言知识库的建设。目前藏文信息处理领域的知识库,主要是实词的语法信息字典和各种语料库,此外还没有建立系统的藏语虚词知识库。因此,藏语虚词知识库的构建是目前藏文信息处理领域里的薄弱环节,要想藏文信息处理推向一个新的高度,虚词知识库的构建是一个无法回避的基础性工程。本文共分八章。第一章“引言”主要介绍了藏语虚词知识库构建研究的背景及意义、研究现状、研究目的。同时也介绍了藏文信息处理的发展与成就。信息时代,我们要突破传统的语言研究方法从另一个新的形式化框架模式下对藏语语法的研究对象、研究目的、研究方法的转换为切入点,为面向藏语信息处理提供有效的语言资源。第二章“藏语虚词知识库的构建”主要介绍了藏语虚词的概貌及其作用、藏语虚词知识库的重要性、藏语虚词知识库的构建方法和内容。虚词知识在藏文信息处理的词法分析、句法分析和机器翻译等方面都有很重要的作用。构建方法借鉴了刘云的“三位一体”的思路,即构建藏语虚词机器字典、构建藏语语料库和构建藏语虚词规则库。按照信息处理需求,把藏语虚词分为了三个部分,即格助词、自由和不自由虚词。第三章、第四章和第五章是本文的重点。本章对藏语“格助词”、“自由虚词”和“不自由虚词”知识库构建内容、方法的综合应用。主要阐述了19个藏语格助词、20个不自由虚词和47个自由虚词共计对86个藏语虚词,通过语法分类、字段设立之后分别建立了机器字典。并利用已建立的4000万字次的语料统计出了频率、频次等相关数据。同时也对每个藏语虚词分别制定了相应的规则。第六章“实验与结果”主要对格助词制定的标记集为对象,通过人工标注了100万词的语料进行了实验。结果表明效果显著,达到预期的目的。第七章“构建藏语虚词知识库的难点”主要对藏语虚词归类问题、藏语虚词兼类问题、藏语虚词的半语法化问题和面向机器的藏语虚词描述问题等方面存在的问题进行了说明。第八章是本文的结语,主要是对已有研究工作的总结和进一步的研究计划。