维吾尔文文本分类中文本表示的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:chencm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的发展使得电子文本文档的数目飞速增长,自动文本分类越发的被人们所需要。文本分类作为数据挖掘、信息检索、机器学习等领域的热点问题,从最初的人工分类逐步发展到现在的由计算机自动完成分类。   英文和中文文本分类已经有很多研究人员进行了大量的研究,现已较为成熟并且已经有了实际应用。但是维吾尔文文本分类的研究,相对起步较晚,现阶段研究还较少,并没有一个成熟、稳定的方法应用于维吾尔文文本分类中。   文本表示是文本分类中一个非常重要的方面,其目的是将非结构化的文本文档转换成计算机可以处理和识别的形式。文本表示的内容包含:文本预处理、特征选择、特征权值计算几部分。本文从维吾尔文文本表示入手,详细研究维吾尔文文本表示各因素对最终分类结果的影响。   通过对维吾尔文进行词干提取和未进行词干提取进行对比实验,发现进行词干提取的分类精度要高于未进行词干提取的结果。在特征选择算法方面,和其他语言文本分类相似,传统的特征选择方法CHI和IG分类效果相近,与DF相比,能够取得更好的分类精度。在特征权值得表示方面,本文对特征权值算法进行了比较,实验结果表明TF*IDF的效果要好于布尔型和TF方法。   针对维吾尔文不平衡数据集问题,提出了一种结合CHI和IDF新特征选择方法—CIDF。实验表明该方法在不平衡数据集上表现要由于传统的特征选择方法。
其他文献
网络集中存储系统是数据处理集群存储和共享数据的一种重要方式,它有着高密度,易共享,高可靠,易管理等优点。随着数据存储和处理需求的爆炸性增长,以及计算能力的快速发展,传
无线多跳网络已经逐步成为向无线终端提供接入服务的主要网络形式,是移动互联网接入网的重要组成部分。无线多跳网络的开放、自组织和多跳特性使得保障接入安全面临很大挑战,
近年来,数码相机和拍照手机产品的广泛应用催生了海量照片,个人电子照片库越来越庞大。与此同时,社交网络的流行带动着个人照片的大量分享,例如Facebook、Fliekr、人人网、微
随着GNSS(Global Navigation Satellite System)技术的不断发展,具有高灵活性以及强适应性的软件接收机系统已经成为导航接收机研究的热点,本课题在调研分析软件GNSS接收机应
WiMAX全称是Worldwide Interoperability for Microwave Access,即微波接入全球互操作,它是基于IEEE802.16标准的一项新兴无线城域网技术,能够提供面向互联网的高速连接。它具有
随着SOA(Service-Oriented Architecture)这一面向服务的软件体系架构在企业中的广泛应用,Web服务己成为在网络环境下对资源进行封装、抽象和虚拟化的主要手段之一。服务组合
图像分割问题是医学图像处理领域的一个重要问题,它是医学图像三维重建、仿真和理解的前提。变分水平集方法相对经典分割算法有更严密的数学基础,它成为医学图像分割新兴手段,已
内存访问瓶颈一直是影响程序性能的关键因素。由于循环嵌套在程序执行中所占的时间比重非常大,通过对程序中的循环进行优化以提高程序的局部性,一直是编译优化的热点。传统的
LTE(Long Term Evolution)是第四代移动通信的主要标准之一,采用了OFDM、MIMO等关键技术来提升系统的性能,主要表现为:下行瞬时峰值速率最低支持10Mbit/s,最高支持300Mbit/s;
本文总结了目前覆盖网迅速发展的趋势以及目前存在的各种技术与实验平台,深入分析了目前影响覆盖网广泛应用的问题,即与当前网络的冲突与多覆盖网之间的冲突问题。水平冲突的