论文部分内容阅读
伴随着计算机行业的飞速发展,大型开放式网络课程即MOOC,逐渐在国内外兴起,名校在在线教育平台上提供大量免费精品课程,为更多学生的自主学习高校课程以及其它相关专业课程提供了可能。目前MOOC的主流包括Coursera、Udacity、edX三大平台。MOOC已经成为在校学生等在课外的主要学习方式。MOOC的快速发展,以及其中产生的海量数据,也使得数据分析面临越来越大的挑战。数据分析技术日新月异,在不同的平台上有着不同的应用,然而看似优秀的数据分析技术,却在不同的平台有着截然不同效果,而比较通用的一个缺点表现在用户的冷启动问题上,即当一个新用户进入到平台中,因为数据的缺乏,往往很难对这类用户作出正确合理的分析。在线教育平台近些年产生的数据量以及种类愈发庞大,而用户的行为数据,相比之前相关领域通过静态数据分析,有更好的效果。因此,如何高效的利用这些数据帮助用户获得更好的学习体验面临着巨大挑战。学术界关于数据分析的研究大多关注数据分析的相关算法,工业界现有的数据分析技术通用性较高,但大多是多数据进行简单的分类聚类,单一的分类或聚类算法的效果并不不理想,达不到对用户提供指导性的建议,如何快速地,易于操作地利用现有的分类聚类等算法来进行数据分析,是大数据商业化发展的主流。针对非同一分布的实验数据和训练数据,本文对基于实例的迁移学习算法TrAdaboost提出了一种改进方法,以适应不同分布的数据集。数据集经过预处理之后,运用该算法能够在一定程度上,很好的缓解在线教育平台中新开或冷门课程的冷启动问题。对于整合分类聚类等算法上,Boosting算法的思路为本文分类器的集成优化,提供了一个很好的解决方案。本文针对多标签的AdaBoost系列算法,提出了一种改进思路,能够很好地降低算法的学习错误率。主要思路为修改算法的样本分布调整策略,将现有AdaBoost算法中样本分布的均匀性打破,使得在每添加一个弱分类器的过程中,能有效地降低学习错误的上界估计,藉此实现对多标签AdaBoost算法的性能提升。