论文部分内容阅读
在现实世界中,经常存在测试集(目标集)和训练集(辅助集)的数据分布或特征空间不一致的情况,不满足机器学习的独立同分布假设,传统监督学习方法表现不佳。为了解决这类问题,迁移学习研究逐渐发展起来,并引起越来越多的关注。由于因特网的普遍使用,利用网络行为预测用户的心理特征可以帮助我们及时了解用户的心理特征,逐渐成为跨学科的研究热点。但是同样存在网络行为测试集(目标集)与训练集(辅助集)分布或特征空间不同的情况,需要利用迁移学习改进心理特征预测的模型。本文开展如下工作: 针对同构迁移条件下数据分布不同的情况,本文提出了局部迁移学习回归方法和基于位移的Kernel Mean Match(KMM)迁移方法。局部迁移学习回归方法包括基于聚类估计法和k-NN估计法的迁移学习回归方法,通过以局部方法估计训练集数据在测试集分布下的权重,结合回归学习以加权误差的形式训练模型,其中基于k-NN估计法的迁移学习回归比传统的监督学习方法在人格预测中提高了预测精度,均方误差(MSE)最高可降低30%。基于位移的KMM偏移方法,将协变量偏移扩展到领域偏移,实验结果表明预测精度比监督学习和KMM方法分别最大提高约9%和10%。 针对特征空间不同的异构迁移学习情况,本文提出了基于线性核和基于平移不变核的异构迁移学习方法。使用核方法来进行异构转换并采用图正则项在转换中保持原数据的拓扑性质。其中基于线性核的方法,简单易用,在人格预测中精度最高可达88%。基于平移不变核的方法能够有效处理非线性异构变换并保持数据的平移不变性,在实验中目标集样本较少的情况时,预测精度比监督学习最多可提高12%。 针对网络行为预测心理特征中存在的测试集(目标集)和训练集(辅助集)的数据分布和特征空间不一致问题,本文提出了心理预测的迁移学习流程框架,利用迁移学习对微博数据集上跨性别和跨地区用户进行人格和抑郁预测,以及在微博和人人网的异构数据集上对人格预测等进行了方法应用,结果表明,迁移学习方法能够有效提高预测精度,改善心理特征预测模型的性能。