现代哈萨克语自动形态分析及语料库建设

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:bbchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哈萨克语隶属于阿尔泰语系突厥语族,是一种典型的黏着语。国内的哈萨克文使用阿拉伯字母拼写,属于拼音文字,由24个辅音字母、9个元音字母和一个软音符号组成。在电子文本中,哈萨克文字编码采用国际通用Unicode编码存储。从结构上讲,哈萨克语词通常包括词根、词干(词根+词缀)、附加成分(词缀和词尾)三部分。哈萨克语是形态发达的语言,构形词尾数量众多,通常一个词尾对应表达一种语法意义,当需要同时表达多种语法意义时,可依次在词干上缀接多个表达不同语法意义的词尾。哈萨克语语法结构的严整和缀接构形词尾具备规则性为哈萨克实现形态分析提供了便利。语料库与自然语言信息处理有着相辅相成的关系,大规模的语料库需要用统计语言模型的方法处理自然语言的基础资源。因此,自动形态分析是大规模构建语料库的前提,而哈萨克语自动形态分析主要任务是实现词干提取和词性标注。词干提取就是对给定的单词,通过自动形态分析提取出表达该词汇原始词汇意义的有效字符串,切分出表达语法意义的各个附加成分。词干提取和词性标注是黏着语自然语言处理词法分析的一个重要的环节,在哈萨克语里,词干提取遇到的主要问题是词干提取歧义,未登录词和词干不规则形变还原。本文所建立的平衡语料库以规范性和易获取性为基本原则,在此基础上选择来自人民网的哈萨克语web资源作为语料库的来源。通过程序自动形态分析,实现对20.7万词web语料的词干提取和词性标注,并据此构建标注语料库。建立哈萨克语语料库具有直接的实用价值,为哈萨克语究者提供了语料库研究方法的可能,同时为语言教学、词典编撰及机器翻译等工作提供便利。
其他文献
江苏音乐广播连续四年打造"咪豆音乐节",并以此为抓手,立足本土,扶持音乐人才;嫁接旅游,拓展音乐产业;融合传播,推广音乐文化,提升了主流专业媒体传播力、引导力、影响力和公信
语文教学的价值在于生命的体验,语文情感教学应改变过去说教、灌输的方式,体现学生主体地位,引导学生在语文学习中体验情感,在情感体验中涵养心灵,完善品格。实施中学语文情
为深入贯彻落实五大发展理念,推动畜牧业转型升级,4月19日,农业部组织召开畜牧业绿色发展示范县创建启动视频会议,部署启动畜牧业绿色发展示范县创建活动。农业部副部长于康震强
作为一种语言输出型技能,英语写作能力的培养一直以来是英语作为第二语言学习与教学中十分重要但又难度较大的一个环节。与听、说、读等技能培养的教学相比,写作教学方法是相
称呼语是人与人交往时最先使用的语言,对于人际关系、人际交流起着非常重要的作用。由于老挝和中国的语言、文化存在比较大的差异,老挝学生往往不能认识到这种差异带来的影响
在传统中国,农村是社会的基础,而且是社会的主体。所以,乡村文化大多内生于乡村社会,并为其而设。我国的乡村文化是以农耕和农业文明为基础的文化,是一个自有其存在价值的相
方言是语言的艺术。因其浓郁的地域文化色彩及所蕴含的深刻的社会人情风貌,已经成为中外文学独具特色的创作元素和重要的表现手法。作为语言学研究领域的重要分支,方言不仅是
全球化是经济和文化的全球化,是不断生产文化和输出文化的过程。在此过程中,弱小民族的文化遭到侵蚀,面临着丢失。文化是一个民族存续的基础,因此民族精英往往将文化视为抵抗全球
以自然光下大田油菜幼苗图像为研究对象,运用超红指数ExR、超绿指数ExG、超绿超红差分指数ExGR、归一化植被指数NDI、植被提取颜色指数CIVE、植被指数组合COM等6种常用植被指
印度之于俄国,不仅是和西方争夺中亚—南亚的战略要地,而且也是不断重建"东方文明"的最重要资源。由此,无论是被英国殖民时虚弱的印度,还是国力和经济并不发达的冷战时代的印