藏语虚词知识库构建研究

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:yhmlivefor48
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的广泛使用和互联网的迅猛发展,人类已经迈向了信息化的社会。利用计算机进行信息处理已经成为这个时代的主旋律。藏文信息处理的研究经过“字”处理迈向“语”处理,在理论探索、基础知识库和语料库等方面的建设取得了较大的成绩,但相对快速膨胀的实际需求而言,藏文信息处理技术依然滞后于实际需求,其中主要的原因是我们为计算机储备的语言知识不够。语言知识库是自然语言处理系统的重要组成部分,其规模与质量是自然语言处理系统成败的关键。对于藏语来说,尤其重视语言知识库的建设。目前藏文信息处理领域的知识库,主要是实词的语法信息字典和各种语料库,此外还没有建立系统的藏语虚词知识库。因此,藏语虚词知识库的构建是目前藏文信息处理领域里的薄弱环节,要想藏文信息处理推向一个新的高度,虚词知识库的构建是一个无法回避的基础性工程。本文共分八章。第一章“引言”主要介绍了藏语虚词知识库构建研究的背景及意义、研究现状、研究目的。同时也介绍了藏文信息处理的发展与成就。信息时代,我们要突破传统的语言研究方法从另一个新的形式化框架模式下对藏语语法的研究对象、研究目的、研究方法的转换为切入点,为面向藏语信息处理提供有效的语言资源。第二章“藏语虚词知识库的构建”主要介绍了藏语虚词的概貌及其作用、藏语虚词知识库的重要性、藏语虚词知识库的构建方法和内容。虚词知识在藏文信息处理的词法分析、句法分析和机器翻译等方面都有很重要的作用。构建方法借鉴了刘云的“三位一体”的思路,即构建藏语虚词机器字典、构建藏语语料库和构建藏语虚词规则库。按照信息处理需求,把藏语虚词分为了三个部分,即格助词、自由和不自由虚词。第三章、第四章和第五章是本文的重点。本章对藏语“格助词”、“自由虚词”和“不自由虚词”知识库构建内容、方法的综合应用。主要阐述了19个藏语格助词、20个不自由虚词和47个自由虚词共计对86个藏语虚词,通过语法分类、字段设立之后分别建立了机器字典。并利用已建立的4000万字次的语料统计出了频率、频次等相关数据。同时也对每个藏语虚词分别制定了相应的规则。第六章“实验与结果”主要对格助词制定的标记集为对象,通过人工标注了100万词的语料进行了实验。结果表明效果显著,达到预期的目的。第七章“构建藏语虚词知识库的难点”主要对藏语虚词归类问题、藏语虚词兼类问题、藏语虚词的半语法化问题和面向机器的藏语虚词描述问题等方面存在的问题进行了说明。第八章是本文的结语,主要是对已有研究工作的总结和进一步的研究计划。
其他文献
改革开放以来,随着市场经济发展、外来文化等因素的影响,我国公民道德受到一定程度的侵蚀,因此,需要政府不断地在原来政策的基础上,通过创新管理方法,提高我国人民普遍的道德
"一带一路"战略背景下,社会对金融会计高素质人才的需求不断加大。本文以泰山学院为例,根据对会计学及财务管理专业学生问卷调查的结果,分析《金融企业会计》课程教学存在的
长期过量的煤炭开采使得宿州市蕲县镇地表大面积整块塌陷,减小了当地农民的耕作范围,使地区社会经济的发展受到阻碍,并且对矿区周边的生态环境造成了破坏性的影响.结合蕲县镇
作为公司对外披露信息的主要手段,财务报告在维系公司制度、支撑资本市场有效运作进而优化资源配置等方面起着至关重要的作用。财务报告作为公司制度和资本市场的一项重要机
目的:建立一种利用高铁氰化钾法检测鸡胚尿囊膜(CAM)血管生成的方法.方法:分离发育期鸡胚尿囊膜并将其匀浆,加入高铁氰化钾溶液,用紫外分光光度计测量A值,通过标准品计算样品
通过田间试验探讨莴苣施用氮磷钾肥料的效应及其适宜用量,结果表明:土壤对莴苣产量的平均贡献率为53.7%,在秋冬季节种植的莴苣施用氮磷钾平均分别增产37.0%、35.1%和11.4%;氮
藏文信息处理的研究内容和对象极为广泛,其中藏语词汇的研究是藏文信息处理领域一个基础性课题之一,只有长期的基础研究才能有乐观的发展前景。从机器翻译系统的基本模型来看
随着中国经济的迅速发展,学习汉语的外国人逐渐增多。汉语作为第二语言的学习和其他第二语言的学习有着相似性,都包括了听说读写这四个方面的技能学习,但是汉语作为第二语言
简介马钢YPON-3750/1710型氧氮液化装置流程,叙述氧氮液化装置在热开车、冷开车、冷备状态开车、变工况操作中存在的问题,阐述了为解决问题而采取的优化操作方法及取得的效果
本研究在土地产权理论的基础上,采用规范分析法,对收集的相关资料进行整理、研究,运用逻辑演绎对我国征地过程中失地农民的补偿安置问题进行系统、深入分析,以期创建市场经济