用未标记数据增强分类器能力的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:linxi054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的分类问题需要通过大量的标记样本进行学习,以预测未来样本的标记。然而在实际的分类应用中,比如图像分析、网页分类、蛋白质结构预测等,标记样本往往数量比较少,获取成本比较高;而未标记样本往往大量存在,其获取成本也相对较低。因此如何利用大量未标记数据来改善学习的效果,成为了机器学习领域备受关注的课题,针对此问题的研究方法被称之为半监督学习。   以往许多半监督学习研究工作都侧重于设计专有的学习方法,使其能够利用大量未标记数据辅助标记数据的学习。然而,经常会有这样的情况,对于特定应用,已经有了最合适的监督学习方法,希望能够借助大量未标记数据来提高已有方法的效果。同时,对于那些已有的半监督学习方法而言,希望在其基础之上,运用某种方法再次提高它的效果。所以寻找一种能够结合大量的未标记数据来增强已有学习器的效果的方法,非常有实际意义。为区别于一般的半监督学习方法,本文称这种半监督学习的思路为半监督增强(Semi-supervisedImprovement,SSI)。   大部分的半监督增强方法都采用基于置信度的迭代式框架,存在的主要问题有:受到置信度方法的限制,只能增强软标记的分类方法;依靠分类器现有模型扩展标记数据集,增强效果不明显;容易放大训练初期的错误,以导致精度退化。   针对这些问题,本文在传统的半监督增强框架上进行了研究和拓展,提出了基于独立置信度的半监督增强框架(Semi-supervised Improvement Framework based on External Confidence,SIFEC),该框架利用与已有分类器无关的置信度计算方法,客观的评判出标记的正确性,从而有效地改善了传统的置信度方法在迭代过程中更新信息少和强化早期错误的问题,同时打破了传统框架中对于学习器种类的限制,能够修正任意学习方法;还在传统的增量式数据集更新方式的基础上,提出了一种新的过滤式数据集更新方式,改善了贪婪式框架不能修正已有训练集中存在的错误的问题;最后进一步对传统的半监督增强框架进行了泛化,使其从针对特定学习方法进行增强的框架,变成了针对未标记数据的某个预测结果进行增强的框架,允许框架根据特定数据集更换重训练方法,进一步提高了框架的增强效果。置信度计算方法是半监督增强框架中的关键问题,本文借鉴基于图的半监督学习方法,提出了三种独立的标记置信度计算方法:GSW方法、MSG方法、MACC方法,能够有效的选出已有标记中置信度高的数据。   跨膜蛋白质数据集以及UCI基准数据集上的实验结果表明,配合适当的重训练方法,本文提出的泛化的半监督增强框架以及独立的置信度方法能有效的提高已有分类器的分类效果,达到甚至超过目前较好的半监督学习方法的水平。数据分析
其他文献
医学图像三维可视化技术是医学影像领域研究的一个热点方向之一。所谓的医学图像三维重建,就是对已经获得的医学图像二维切片进行相关的算法运算,使其能够以三维的形态在计算机
随着国家对煤炭市场的重视和信息技术的发展,煤炭企业之间存在着激烈的竞争,运销工作对煤炭企业的发展起着决定性作用,使企业在新的市场环境中得以生存。在长期的工作中,集团煤矿
随机共振是近年来提出的一种新的非线性弱信号检测方法,它可利用噪声来增强有用信号,达到检测弱信号的目的。本文重点研究基于随机共振理论的强噪声背景下非周期信号检测方法
本文提出了一种基于XML (Extensible Markup Language,可扩展标记语言)异构数据库结构和数据交互的方法,分别制定关系数据库的结构和数据的映射规则RXI (Relation XML Intera
随着网络技术的不断发展,计算机网络正在日益广泛地深入到人们日常生活中的各个领域,并慢慢改变着社会的行为和面貌。但是,于此同时,计算机网络的安全问题也日益突出。入侵防
随着P2P实时流媒体在网络上的流行,在ISP主干链路的流量中,P2P实时流媒体应用占有相当大的比例。尽管ISP通过部署缓存设备的方法有效缓解了Web和VOD流媒体所产生的流量压力,
拟插值作为一种逼近方法在计算机辅助几何设计、数据分析等领域有广泛应用,尤其在逆向工程领域,它能够直接拟合散乱数据点而不需要所有插值点都落在目标曲线或曲面上,在处理
目前,随着多核处理器的迅速发展,单核时代已经成为历史,尤其是由多个多核处理器组成的多处理器系统,更是为应用软件性能改善提供了硬件基础。然而我们的软件却大多停留在单核时代
近年来,随着“互联网+”模式的兴起,社会各行各业正在发生创新性变革,其中“互联网+教育”新形态对传统教育产生巨大影响。教学活动围绕互联网平台展开,这种方式极大地拓展了
伴随着计算机科学技术的发展,企业信息系统的开发技术在不断发展。为了应对全球化的激烈竞争,我国的相关企业越来越重视信息化建设和规范化管理。虽然信息系统的开发有一定程