维吾尔文NLP中若千问题研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:sdwtb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,尤其是计算机网络的广泛普及和迅速发展,自然语言处理也越来越多地受到了广大计算机工作者的重视。在这样的大环境下,民文信息处理技术也应运而生。中央提出的“一带一路”的战略规划,使得民文信息处理技术的发展显得尤为重要,并且也迎来了难得的机遇和挑战。
  本文从维吾尔文字的多模式、多编码的特点入手,根据维吾尔文的黏着型的特点,提出了维吾尔语阿拉伯文与维吾尔语斯拉夫文间的转换系统;之后对维吾尔文的词性标注、词干提取进行了阐述;最后在该系统的基础上分析了三种分类器对维吾尔文进行分类的结果,最后得出结论。主要研究内容如下:
  (1) 提出了一种基于规则与词典结合转化编码算法,选用微软中间件,采用二进制文件结构和二分法查找方法,开发并实现一个编码转换原型系统。
  (2) 提出了一个融合词干与词缀形态特征的基于最大熵的维吾尔文词性标注模型。构造了词性标注特征模版,并设计了相应的特征函数。实验结果分析表明,最大熵模型可以较好地处理兼类词和未登录词的词性标注问题,标注准确率比其他标注系统有明显提高。
  (3) 提出了一种多策略集成的维吾尔文的名词词干提取方法,设计了基于规则与词典相结合、最大熵和有限状态自动机的词干切分策略。在权威语料库的平台上进行了实验,结果表明,本文提出的方法提高了名词词干提取的准确率。
  (4) 本文介绍了维吾尔文的文本分类技术,建立了一定规模的文本语料库。采用词干提取方法降低了向量空间维数,采用CHI统计特征选择方法。在较大规模文本语料库基础上分析了KNN,朴素贝叶斯(NB),SVM等每一种算法在维吾尔文文本上的性能。实验结果表明SVM分类器性能最好。
  本文对维吾尔文自然语言处理中编码转换、词性标注、词干提取及其在文本分类中的性能进行了分析和研究,得到了有一定价值的结果,并为以后的研究提供了基础。
其他文献
随着计算机和信息技术的快速发展,图像匹配技术已经成为计算机视觉领域中一项极为重要的技术,在图像检索、遥感图像处理、目标识别与跟踪、三维重构等领域有着广泛而实际的应用。基于特征的图像匹配方法由于其计算量小,鲁棒性好,对图像形变不敏感等优点,成为当前研究的热点。由于图像匹配所涉及的图像之间可能存在着灰度、旋转、视角、尺度等多种变化,以及其他因素的影响,导致图像匹配问题有着较高复杂性,这使得图像匹配问题
随着平安城市的建设,城市监控渐渐地融入了我们生活的各个方面,随之带来的是监控摄像头数量的増加,进而导致视频数据急剧増长,如何在大量视频数据中快速有效地分析和检索感兴趣的视频内容己成为一个急需解决的问题。  目前,在视频监控领域中,对于监控视频的管理和检索方法通常是基于视频文件描述(时间和地点等)的,而基于监控视频的实际内容进行操作的检索应用还没得到普及,但这反而是用户更关心的。因此新型视频检索技术
随着社会的快速发展以及社会的需求,视频监控分析成为研究热点问题,而检测跟踪又是视频监控的基础工作,所以稳定、鲁棒的目标检测跟踪算法就尤其重要。而在实际的场景中,目标检测跟踪面临着很多实际的问题,如运动目标阴影、遮挡等问题,所以本文针对相应的问题提出自己的方法,并改进现有的检测跟踪算法,最终在智能监控系统中验证了本文的算法。  第一,对目前很流行的检测算法:帧差法、背景差分法、光流法等技术进行全面的
现实世界存在大量的复杂系统,这些复杂系统可以抽象描述为复杂网络。近年来,复杂网络引起了不同领域学者的广泛关注。社团结构是描述复杂网络的重要特性之一,通常,社团内部节点之间的连接较为紧密,而社团之间节点的连接较为稀疏。检测社团结构有助于更好地分析复杂网络结构信息并进一步挖掘复杂网络的潜在功能。因此,复杂网络社团检测是一个重要的研究课题,具有重要的理论意义和现实价值。当前,多目标优化算法是解决复杂网络
学位
随着传感技术、无线通信技术和嵌入式技术的不断发展成熟,无线传感器网络逐渐成为当今社会的研究热点.它强大的感知能力、自组织能力、部署方式简单方便的特点决定了在很多领域都有广阔的应用前景.在现有的能源技术条件下传感器节点的能量有限,而且传感节点分布的环境条件比较恶劣,频繁的更换电源是不现实的.这样,无线传感器网络路由的设计不仅仅是考虑路径的长短、服务质量的保证等,实现网络中节点能量使用均衡延长整个网络
在无线传感器网络应用中,节点的定位技术是不可缺少的,如何得知传感器节点的准确位置对整个传感器网络的监控有着举足轻重的作用。无线传感器网络的监测区域内一般会被大量传感器节点毫无规律的充斥着,由于无法知晓传感器节点的实际位置,最早对未知节点的定位一般是通过传感器节点之间相互传递消息来实现各节点的定位,而这种定位方法由于受外界环境、通信半径以及能量消耗等因素影响使得该定位方法定位误差比较大。因此,如何设
期刊
边缘特征携带了图像中重要的信息,是图像的基本特征之一。图像边缘特征提取技术是数字图像处理、计算机视觉和模式识别的基础。目前,数字图像边缘特征提取技术已广泛应用于目标跟踪、掌纹识别、遥感图像分割等领域,图像边缘特征提取也成为数字图像处理的研究热点之一。  图像边缘特征提取的方法主要分为两大类:一类是基于图像亮度梯度的传统图像边缘特征提取算法,它是利用图像亮度梯度的变化提取图像的边缘特征。另一类是基于
学位
随着医学影像技术的发展,近年来,各种医学影像设备产生了大量的医学数字图像。医学数字图像具有内容丰富、形象直观的特点,能够很好地辅助医疗诊断。然而,因其数据量非常庞大,会占用大量的存储空间和传输带宽,所以有必要对医学数字图像数据进行压缩。  现有的图像压缩标准大都基于图像的正交变换,其中以基于离散余弦变换的JPEG压缩标准最具代表性,JPEG算法具有优良的压缩性能,适用于各类图像的压缩。但是,JPE
期刊