论文部分内容阅读
领域自适应是机器学习的一个重要研究方向,在大数据学习发展迅速的今天,当面对一个新的任务但是训练样本难以收集,分类器无法得到有效的训练时,可以引入其他相似领域的数据。但是不同领域的数据在分布上有所差别,直接使用反而会产生相反的效果。为了充分有效地利用其他领域的信息辅助目标领域的任务,领域自适应技术至关重要。本文从子空间学习的角度,研究如何减小辅助域和目标域的域偏移,将原始数据在子空间中重新表示,所取得的研究成果如下:首先,本文总结分析了传统领域自适应方法的优缺点与稀疏表达在领域自适应中的作用,提出了基于嵌入子空间稀疏重构的领域自适应(SRES)方法。引入一个嵌入子空间用于获取原始数据在低维空间的理想表示,要求嵌入子空间中的数据能够对目标域数据稀疏重构,使理想的低维嵌入数据重现源域和目标域共同的内部结构,并减少嵌入子空间对投影的约束,然后将投影结果与重新表示的数据独立表示,再不断优化让两者接近,使投影和子空间的求解更加灵活。最后为了进一步减小域偏移,借助核方法将算法扩展至非线性版本(NSRES)。在多个数据集上的实验验证了所提SRES方法相比传统方法具有更优的自适应效果,目标领域的分类性能得以提升。考虑到上述方法只是优化了源域和目标域边缘概率分布的对齐,忽略了条件概率分布,本文提出了基于判别子空间的类重构领域自适应(CRDS)。CRDS充分利用类标信息,要求子空间中的数据不但能够对目标域数据稀疏重构,还要能被线性回归到类标矩阵,提高子空间数据的判别能力。一方面对类标矩阵加入松弛变量,使条件概率分布的对齐更加合理灵活。另一方面,考虑到传统方法将原始数据直接降维投影至类标空间,不合理且丢失了过多信息,CRDS将判别性的要求放在对齐了边缘概率分布的子空间中,使子空间保留更多的信息并提高判别能力。此外,考虑到源域和目标域的分布差异不一定能通过一次投影就解决,CRDS在对源域数据投影后又加入一次偏置,进一步减小子空间中的域偏移。若领域自适应技术是在解决目标域小样本问题,那么还有一类小样本问题同样需要注意,即个别类样本太少引起的分类器的性能退化。针对不平衡数据集分类时少数类样本过少对孪生支持向量机分类效果的影响,本文提出了类间判别孪生支持向量机(BDTSVM)。首先在费舍尔判别分析基础之上设计了一个对不平衡现象不敏感的类间散度判别项,再将类间散度与孪生支持向量机的两个不平行超平面结合,使得分类器训练时,多数类和少数类的影响力能够平衡,从而提高了分类器在不平衡数据集上的分类效果。