论文部分内容阅读
传统的分类问题需要通过大量的标记样本进行学习,以预测未来样本的标记。然而在实际的分类应用中,比如图像分析、网页分类、蛋白质结构预测等,标记样本往往数量比较少,获取成本比较高;而未标记样本往往大量存在,其获取成本也相对较低。因此如何利用大量未标记数据来改善学习的效果,成为了机器学习领域备受关注的课题,针对此问题的研究方法被称之为半监督学习。
以往许多半监督学习研究工作都侧重于设计专有的学习方法,使其能够利用大量未标记数据辅助标记数据的学习。然而,经常会有这样的情况,对于特定应用,已经有了最合适的监督学习方法,希望能够借助大量未标记数据来提高已有方法的效果。同时,对于那些已有的半监督学习方法而言,希望在其基础之上,运用某种方法再次提高它的效果。所以寻找一种能够结合大量的未标记数据来增强已有学习器的效果的方法,非常有实际意义。为区别于一般的半监督学习方法,本文称这种半监督学习的思路为半监督增强(Semi-supervisedImprovement,SSI)。
大部分的半监督增强方法都采用基于置信度的迭代式框架,存在的主要问题有:受到置信度方法的限制,只能增强软标记的分类方法;依靠分类器现有模型扩展标记数据集,增强效果不明显;容易放大训练初期的错误,以导致精度退化。
针对这些问题,本文在传统的半监督增强框架上进行了研究和拓展,提出了基于独立置信度的半监督增强框架(Semi-supervised Improvement Framework based on External Confidence,SIFEC),该框架利用与已有分类器无关的置信度计算方法,客观的评判出标记的正确性,从而有效地改善了传统的置信度方法在迭代过程中更新信息少和强化早期错误的问题,同时打破了传统框架中对于学习器种类的限制,能够修正任意学习方法;还在传统的增量式数据集更新方式的基础上,提出了一种新的过滤式数据集更新方式,改善了贪婪式框架不能修正已有训练集中存在的错误的问题;最后进一步对传统的半监督增强框架进行了泛化,使其从针对特定学习方法进行增强的框架,变成了针对未标记数据的某个预测结果进行增强的框架,允许框架根据特定数据集更换重训练方法,进一步提高了框架的增强效果。置信度计算方法是半监督增强框架中的关键问题,本文借鉴基于图的半监督学习方法,提出了三种独立的标记置信度计算方法:GSW方法、MSG方法、MACC方法,能够有效的选出已有标记中置信度高的数据。
跨膜蛋白质数据集以及UCI基准数据集上的实验结果表明,配合适当的重训练方法,本文提出的泛化的半监督增强框架以及独立的置信度方法能有效的提高已有分类器的分类效果,达到甚至超过目前较好的半监督学习方法的水平。数据分析