论文部分内容阅读
迁移学习是解决数据跨领域问题的一种有效方式,它从过期数据中学习知识来帮助认知新任务,由于其打破了传统机器学习“独立同分布”的假设,被成功应用于很多领域。集成学习通过组建多个有差异的分类器建立预测模型,由于其突出的稳定性和泛化性,成为机器学习研究的热点之一。本文以新闻文本分类为背景,对迁移学习和集成Bagging算法进行了研究,并得出一种改进的组合算法,为在少量目标训练集的情况下进行分类提供了一种适用的框架。首先阐述了集成学习的概念、发展现状,迁移学习的概念、对比分类、应用领域。之后,对新闻文本数据集的预处理过程进行详细的描述,讨论确认了参数和特征选择算法,使预测分类模型的训练数据输入更精准合适。最后,本文针对目标域的训练样本数量较少,无法建立优质分类模型的问题,探讨了一种在迁移框架下基于集成Bagging算法的跨领域分类模型。该模型引入源域的数据并对其进行筛选,学习混合数据集,从而建立基于集成Bagging算法的分类模型,最终投票得出预测结果。通过仿真实验的对比,采用基于贝叶斯基分类器的集成Bagging算法能使源域的迁移和目标域的分类准确率、泛化性能最好。同时,本文分析了源域中的噪音数据的数量对分类模型的影响,实验结果表明基于迁移集成Bagging算法的模型可以部分地规避负迁移。综上所述,本文针对不同的特征选择算法,研究了文本预处理过程中特征选择算法的差异。针对国内搜索引擎中很少能找到完整的英文预处理流程,本文改进了中文文本处理程序,整理出一套完整的图形化的英文文本预处理方式。将迁移学习与集成学习结合起来,综合探讨了跨领域的数据和不平衡数据的解决方式,给出了一种基于选择迁移的集成Bagging算法的分类模型,实验表明该模型整体性能较好,并且能规避一定的负迁移。