基于于半监督SVM主动学习的文本分类算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:champhorse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,世界已逐渐变成一个信息的海洋,人们被信息浪潮所淹没,如何实现大量信息的自动分类,并且从这些信息中自动分类出有用的信息是一个重要的研究领域。文本作为信息的主要载体,对文本分类算法进行研究意义重大,而主动学习的引入又进一步改善了文本分类算法的性能。支持向量机(SupportVectorMachine,SVM)主动学习方法已被广泛应用在文本分类技术当中,但是一般的SVM主动学习方法面临两个问题:一是标记样本稀缺;二是待标记样本存在大量冗余。  本文对文本分类中SVM主动学习方法做了详细的研究,为了应对上述存在的问题,在已有的应用在分类问题当中的SVM主动学习方法的基础上,对SVM主动学习方法进行了改进,提出了一种新的半监督支持向量机主动学习(SS-SVM-AL)算法。具体内容如下:  (1)首先介绍了课题的研究背景和在国内外的研究现状与发展现状,文本分类的相关理论和技术;支持向量机和主动学习的理论的基本思想和实现技术;研究了传统SVM主动学习和半监督学习的理论知识和经典方法。  (2)针对存在的标记样本稀缺的问题,运用半监督的思想对其进行了改进,充分利用所有未标记样本信息包含的空间结构信息,混合标记样本集和未标记样本集构造训练集,克服了单纯用标记样本来训练分类模型样本数据集几何特性不充分的缺点,构造出一个半监督核函数,从而得到泛化能力更强的半监督支持向量机。  (3)针对存在的样本冗余问题,设计了一个基于最大-最小框架的主动学习方法,能够从未知样本集中挑选出具有代表性的样本,并确保样本之间有较大的差异,可有效应对样本冗余问题,提高分类结果的质量。  (4)在此基础上,给出了SS-SVM-AL算法,并将该算法应用到标准文本分类数据集上对比其他同类算法,结果表明了SS-SVM-AL算法的有效性。
其他文献
近几年随着移动互联网的高速发展,作为移动互联网主力消费终端的智能手机也随之发展迅猛,并逐渐融入了我们的日常生活。但是随着智能手机的迅速普及,智能手机的安全问题也逐
伴随着电子计算机以及网络技术的飞速发展,人们逐渐习惯于在网上进行交易。在这样的背景下,网上拍卖快速发展起来,成为电子商务的重要组成部分。同时,作为云计算中的关键技术,MapR
随着科学技术的不断发展与进步,人机交互正朝一个更加简单化和人性化的方向发展,而手势识别是人机交互的一种重要方式。本文借助Kinect体感设备研究了基于深度信息的手势识别
在计算机网络应用、通信技术和信息技术快速发展的背景下,使用电子政务进行自动化办公、无纸化办公等已成为政府部门办公的主流手段和趋势,对各级组织管理水平的提高助益很大
信息推荐作为解决信息过载的重要手段之一,得到了广泛的研究和应用。但当前推荐系统在动态特征方面研究不足却制约着它的发展。传统的推荐系统研究是基于用户和物品之间的关系
IEEE802.15.4标准是为速率低的无线个人区域网络独特设计的。ZigBee网络是基于IEEE802.15.4无线传感器的一门新技术,最近几年,由于ZigBee的特点优势,广泛应用在工业、农业、车载
随着物联网的发展,室内环境中的基于位置的服务(Location Based Service,LBS)备受关注,同时也推动了室内定位技术的进一步发展,使其成为定位领域的一个重要的研究方向。通过
随着计算机技术的发展,在生活的各个方面也对计算机化提出了更多的要求,这就促使了嵌入式系统的进一步发展。  本论文选择嵌入式下的文件系统这一课题进行研究和实现。工作包
摘要:随着微阵列技术的广泛应用,越来越多的基因表达数据被获取,如何从海量的数据中提取有生物学意义的信息,是目前生物信息学的一个重点研究方向。功能相近的基因其表达模式
在Internet快速普及的进程中,电子商务等信息呈现服务正在以难以置信的速度急速发展。客户面对这些信息呈现服务中的众多选择,从中挑选出自己真正需要和喜欢的项目已成为一个重