基于语料的哈萨克语词频统计研究

来源 :计算机工程 | 被引量 : 0次 | 上传用户:leafxzc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哈萨克语作为新疆少数民族语言之一,其词频统计作为自然语言处理的基础性课题,成为需要迫切解决的问题。基于此,介绍Zapf定律及哈萨克语词频统计之间的联系。对连续输入哈萨克语字符串进行切分,再输入切分后的哈萨克语词串,由此得到哈萨克语词典。在词典中存储词形不同的哈语词组,以及这些词组出现的频率,并进行哈萨克语的统计实验,结果说明哈萨克语词频之间存在内在联系,同时验证哈萨克词频符合Zapf的幂率定律。
其他文献
给出基于完全平方数的RSA密码分析算法的机理,分析满足同余式x2=y2(modn)的完全平方数x和y的数域选择与算法效率的关系。通过数学证明和相关分析方法,定义RSA公钥n的素因子特征c,
对于三菱重工空调而言,体育竞技不只是一场关于胜负的比拼,更重要的是其所蕴含的团结、拼搏与永不言弃的精神。随着体育产业黄金时代的开启,体育运动受到的关注度越来越高,而
慢性阻塞性肺疾病(简称慢阻肺)是一种严重危害人类健康的常见病,在世界范围内具有较高的发病率和死亡率。最近一项在亚太地区的社会调查表明,慢阻肺的流行程度达到6.2%。对于慢阻肺
以Alpha处理器作为实现平台,将系统仿真软件QEMU移植到Alpha上,使基于x86结构的Linux操作系统可以运行在系统虚拟机中,实现Alpha处理器与x86程序的兼容。对该虚拟机进行性能
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
在常规DGA诊断方法中,存在故障数据不敏感的问题。为此,提出一种基于重构贡献的变压器故障诊断方法。该方法在建立主元分析模型后,采用SPE和T2统计量检测故障,在分析重构贡献
构建充满人文精神的语文课堂,教师应努力创设和谐、融洽、欢快的人文氛围,关爱每一位学生。在阅读教学中注意挖掘教材的人文资源和人文内涵,熏陶感染学生,还应在作文教学中渗透人
提出一种基于直方图对的JPEG图像无损数据隐藏方法。该方法通过调整直方图,在JPEG图像的量化后DCT中频系数中嵌入隐藏数据。同时,能够在不需要原始图像的情况下对隐藏数据进行
针对手写体汉字合成困难的问题,从离线手写体汉字样本的结构知识出发,提出一种合成手写体汉字的方法。该方法采用改进的方向游程算法提取汉字的笔画,并建立笔画框,从笔画框的结构知识出发构建起字体信息来合成汉字。实验结果证明,该方法可以较好地合成汉字,且容易识别,对光学字符识别有较好的抵抗能力。