半监督支持向量机学习方法的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:wxws008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统机器学习技术通过对有标记数据(labeled data)的学习来构建模型,为了获得强泛化能力,通常需要有大量的有标记数据。在很多现实任务中,虽然很容易获得大量未标记数据(unlabeled data),但是获取数据的标记却相对困难,因为标记过程需要花费人力物力资源;因此,如何有效地利用未标记数据来提高泛化性能,成为机器学习领域的一个关键问题。半监督学习是该方面的两大主流研究方向之一,而半监督支持向量机(Semi-Supervised SVM,简记为S3VM)则是半监督学习中的一类主流范型。经过十年的研究,S3VM已经取得了很多进展,并且在众多领域得以成功应用。然而,该范型所涉及的一些重要问题,例如其对数据规模的可扩展性、计算效率、非均衡代价处理、未标记数据利用的安全性等,仍焏待研究。本文对半监督支持向量机涉及的若干重要问题进行研究,主要取得了以下创新成果:第一,对提高S3VM处理数据规模的可扩展性进行研究,提出了基于标记生成的大规模半监督支持向量机学习方法WELLSVM。该方法通过“标记生成”技术,使得S3VM可以有效处理近百万量级的样本。论文在理论上对求解效果的全局保证与时间复杂度进行分析,并在大量数据集上进行了实验验证。结果表明,在大规模数据上WELLSVM把经典S3VM能够处理的数据规模提高了10倍以上。此外,WELLSVM可容易拓展以求解其他复杂学习任务,例如多示例学习、聚类等。第二,对加快S3VM的计算效率进行研究,提出了基于类中心估计的快速半监督支持向量机学习方法MeanS3VM。该方法不需估计所有未标记数据的标记,只需估计类中心即可完成学习模型的构建,从而大幅度提高了S3VM的效率。论文在理论上对MeanS3VM的逼近能力进行了分析,并在大量数据集上进行了实验验证。结果表明,随着数据规模的不断增大,MeanS3VM的计算优势更加明显,通常可以把经典S3VM的计算效率加快10倍以上第三,对赋予S3VM处理非均衡错误代价的能力进行研究,提出了代价敏感半监督支持向量机学习方法CS4VM。该方法通过优化有标记与未标记数据上的总体代价,从而可以有效减少数据总体错误代价。论文在大量数据集、大量非均衡错误代价设置上进行了实验验证。结果表明,当代价严重不均衡时,CS4VM在超过80%的情况下降低了经典S3VM的总体错误代价,其中70%以上的情况,总体错误代价的减少量超过1/5。第四,对提高S3VM利用未标记数据的安全性进行研究,提出了安全半监督支持向量机学习方法S4VM。该方法通过最大化最坏情况下的性能提升,使得利用未标记数据进行学习后,不会有泛化性能显著下降的情形发生。论文在理论上对S4VM的安全性进行了分析,并在大量数据集上进行实验验证。理论结果表明,只要半监督学习的“低密度划分”基本假设成立,则S4VM必然安全。实验结果表明,S4VM将性能显著下降的比例从经典S3VM的15%下降到不足1%,并取得高度可比的性能。由于支持向量机学习方法具有一般性,论文还对半监督支持向量机学习方法的拓展进行了研究。具体而言,论文将半监督支持向量机推广用于求解多标记学习问题,显示出半监督多标记支持向量机可以通过利用未标记数据而显著提升多标记学习的泛化性能;论文对多示例多标记支持向量机进行研究,显示出在多示例多标记学习中,支持向量机通过对示例标记进行学习可以获得更好的泛化性能,并且还可以在一定程度上发现输入特征模式和输出语义标记之间的关系。
其他文献
目的:探讨急性单纯疱疹病毒性脑炎病人在护理工作中的常见问题及处理方法。方法:对13例急性单纯疱疹病毒性脑炎的护理工作进行回顾性分析。结果:8例痊愈,3例好转,1例死亡。结
本文分析了农林院校经管类专业学生自身特点和西方经济学课程的特点,探求导致西方经济学教学效果不佳的原因,并就如何提高教学效果径做了一些探讨。
目的通过成年人重度阻塞性睡眠呼吸暂停低通气综合征(obstructive sleep apnea-hypopnea syndrome, OSAHS)患者手术前后听觉功能检查的对照研究,了解OSAHS患者术后听力康复的情
十七大报告指出:“实现未来经济发展目标,关键要在加快转变经济发展方式、完善社会主义市场经济体制方面取得重大进展。”目前,我国以“高投入、高消耗、高排放和低效率”为特
本文以有机化学课程实施教师挂牌上课制度为研究基点,总结化学基础课教师挂牌上课制度的意义,并对存在问题进行研究梳理,力图找到问题解决的策略。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目前,铁路企业面临货运市场占有率持续下降和从传统运输企业向现代物流企业转型的双重压力,降成本是当前铁路企业管理的重要环节,本文就铁路车务站段成本管理的特点、存在问
在湖北等地的莲藕(Nelumbo nuci f era Gaertn.)产区,“藕簪”指叶片尚未展开的莲叶和藕带,实际应用中常将“藕簪”写成“藕苫”,少数写成“藕笘”,对“簪”、“苫”及“笘”等三字
科技投入是影响经济增长的重要因素,文章利用典型相关分析构建了科技投入与经济增长的典型相关模型,结果表明科技投入与经济增长呈正相关关系,且相关程度较强。
信息科学的研究涉及数据处理的各个方面,相关的工作促进了方向的产生,成果的出现推进了学科的发展。作为信息科学的研究课题或研究方向,数据分类、数据约简、数据仓储、数据