现代维吾尔语常用词计量研究

来源 :新疆师范大学 | 被引量 : 0次 | 上传用户:xurikeji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代维吾尔语常用词计量研究是少数民族语言信息处理领域急需研究的重要课题。维吾尔语常用词汇表的欠缺,是影响维吾尔语词汇学、计算语言学和维吾尔语信息处理工作质量的重要因素,迫切需要研制具有代表性、可靠性、权威性的维吾尔语常用词汇表,促进维、哈、柯等阿尔泰语系的新疆少数民族自然语言理解跨越式发展。  本文在国家自然科学基金资助项目(项目编号:61063036)和国家语委项目(项目编号:YB125-45)等项目的支持下,对现代维吾尔语常用词计量研究的基本理论、基本方法和关键技术进行了研究,构建了现代维吾尔语语料库,生成了各种语料处理应用系统,研制出现代维吾尔语常用词候选表。  为确保收集语料的可靠性、代表性和权威性,本文重点对语料来源、语料范围、语料载体等进行了研究,以保证常用词候选表的权威性和代表性。  本文研究了构建现代维吾尔语言语料库的关键技术与方法,特别是现代维吾尔语言语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表,从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。  本文主要的创新点为以下两点:  (1)在现有的语料库资源基础上,系统、持续地进行收集、整理、加工和处理现代维吾尔文平面媒体、教育教材媒体、有声媒体、网络媒体语料,构建现代维吾尔语语料库,相比之前的语料库,本语料库语料来源更广、语料领域更宽、各个领域比率控制适当。对构建现代维吾尔语言语料库的关键技术与方法进行进一步优化与完善,新增了人名识别和数据自动分析技术。  (2)对词语使用频次及其词汇文本数进行基本考察,从词语的使用频度和词语在文本中出现的次数两方面加以考虑,提出了现代维吾尔语常用词候选表。  本研究不但为维、哈、柯等阿尔泰语系的少数民族自然语言理解及处理工作提供了基础,也可为阿尔泰语系的少数民族语言的规范化、教材设计、中小学语文教育、扫盲教育、双语教育和辞书编纂提供服务。
其他文献
1月4日,国家审计署公布2012年第1号审计令,将地方政府的“问题”债务半年整改结果向外公布。截至2010年底,全国地方政府性债务余额为107174.91亿元,“问题”债务总额约5308.5
唐晋是山西当代诗人中最具代表性的一位,著名诗人曹英人用“奇迹”二字形容他的诗歌,著名评论家汉光也认为唐晋诗歌是“一座难以逾越的高峰”。他们称赞唐晋诗歌的语言华美、意
高等数学课程是一门重要的基础课,各个高校都非常重视,但当前许多高校的高等数学教学现状因为一些客观原因,导致教学效果并不理想,高等数学教学质量问题一直是个难题.利用网
儒家和道家文化其所蕴涵的文化概念,表现在传统艺术美学上就是含蓄美和内在美。道家和儒家作为中国传统文化中的两大中流砒柱,对中国传统陶瓷雕刻艺术的发展的影响有着较深的
20世纪60年代以来的生态危机催生了生态思潮的发展,这股思潮几乎波及所有人文社会科学领域,生态文学便是这股思潮中极其重要的一个支流。20世纪70年代以来,伴随着世界范围的生态
25-1长安长安,“长盛不衰的东方文明之都”的寓意,为中国历史上十一朝之古都,经历1063年。或为丝绸之路起点的国际大都市,几乎经历了丝绸之路整个兴亡时序。唐史载:是时中国
本文主要从电影、文学、美术摄影作品、新闻报道这四方面来解析留守儿童形象建构的多面性,以及呈现出倾向性建构类别,论述电影中所建构的留守儿童正面形象、文学中所建构的中
提出一种基于连续潮流的线性迭代法计算输电网可用输电能力ATC(Available Transfer Capability),详细推导了该算法的数学模型,并给出计算方法及流程,将算法应用到IEEE-30节点
0 引言rn南阳500 kV白河变电站是河南省第1座实现综合自动化的超高压变电站.本文以该工程设计和现场调试为出发点,对该变电站自动化系统的设计特点进行了阐述,并对调试过程中
在传统模式下,手机是作为一种具备通讯功能的工具出现的,当手机功能实现智能化后,与网络实现连接手机应用就承载了更多的功能,APP是针对于智能化手机而出现的一种软件系统形