集成学习理论研究及其在个性化推荐中的应用

被引量 : 10次 | 上传用户:abc37562735
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习作为一种新的机器学习范式,通过使用多个学习器来解决同一问题,能够显著提高系统的准确率和泛化能力。从上世纪90年代开始,集成学习已经成为国际机器学习领域的一个研究热点。另一方面,随着信息技术的迅猛发展,导致了信息爆炸,使得信息的利用率急剧降低,即所谓的信息过载或信息迷失问题。通常认为解决这个问题的最有效方法是个性化信息推荐,它能够主动地搜集用户的兴趣偏好,为用户推送个性化的信息。虽然当前个性化推荐技术已经有大量研究工作,但是这些方法的准确率普遍不高,适应性差,往往只考虑少数几个因素。如果能够将集成学习技术应用到个性化推荐问题中,势必会增加当前个性化推荐的有效性和适应性。就集成学习本身而言,同样存在一系列的问题有待进一步研究,如boosting集成学习中弱学习器间的相关性和冗余性问题等等。基于此,本文针对集成学习理论及其在个性化推荐中的应用,开展了多项有意义的研究工作,主要创新点包括:(1)针对boosting集成学习中弱学习器的相关性和冗余性问题,本文提出SelectedBoost算法。该算法在boosting迭代生成弱学习器时,计算新生成的弱学习器与已有弱学习器的相关性指标,用于对弱学习器进行选择。这样大大提高了传统的生成所有弱学习器以后再选择集成的效率,有效地减少了生成的弱分类器个数,并降低了整体弱分类器间的相关性。不仅提高了算法的收敛速度,而且使最终的分类准确率有了进一步的提高;(2)现有的间隔最大化boosting集成学习算法如LPBoost,SoftBoost,ERLPBoost等等,其样本权重更新只是基于已生成的弱分类器。然而与弱分类器相比,强分类器更能代表当前各弱分类器形成的分类超平面。因此本文提出了StrongLPBoost算法,通过在带约束的间隔最大化问题中,引入更加严格的强分类器边界约束条件,使得样本权重的更新不仅仅参考已生成的弱分类器边界,而且还参考当前形成的强分类边界信息,从而提高算法的收敛速度。(3)提出基于集成学习的RankBoost*推荐算法,使用基于相似度的评分预测方法和矩阵因子化方法作为基本学习器,并使用k-最近邻算法对这些基本学习器进行扩展,通过RankBoost*算法集成这些弱学习器,达到其优势互补的目的,提高了最终的推荐准确率,从而将boosting集成学习技术成功应用到个性化推荐问题中。(4)推荐系统的最终目标是给用户提供一个排序或者推荐列表,并且已经广泛认为这个目标比打分预测的准确性更加重要。基于这个原因,本文专注于商品排序或者topN推荐,而非打分预测。本文考虑使用排序学习方法生成推荐列表,提出了用于排序学习问题的通用boosting集成学习框架,具体实现了基于列表的个性化topN推荐算法NDCGBoost@K,并且该集成学习框架适用于其他基于列表的评价指标(如平均准确率均值)。最后,我们对本文工作进行总结并对后续研究进行展望。
其他文献
据2010年的统计,韩国高中学校除了英语最多选的第二语言课程第一是日语(374,576名),第二是汉语(169,312名),此后是法语(25,025名),德语(21,841名),西班牙语(4,158名)等。第二语言课程一般学
随着社会经济发展,现代物流产业已经成为我国的支柱性产业,在国民经济中发挥着越来越重要的作用。世界经济一体化趋势的增强,使我国物流市场的竞争日趋激烈,这对尚处于发展初
微机械陀螺是一种测量角速度或角位移的惯性传感器,具有体积小,可靠性高,价格便宜的优点,在汽车,电子和惯性导航领域有很大的潜力。微机械陀螺常见的检测方式有电容式和压阻
农业技术传播服务对于农业生产中农业技术的普及和传播有着直接的影响,对于农业生产来说农业技术的提高是农业进步的关键一步。农业生产的科学技术却往往在农业技术传播过程中
壁上艺术创作在当下公共艺术领域占有重要的地位,它具有美化环境、提高公共空间品质,营造精神空间,凸显人文关怀的功能。随着科技的发展、社会的进步,传统意义上的壁上艺术创作已
本文以天津滨海平原碱性盐化土壤为研究对象,采用微波消解对土壤进行消解,并使用电感耦合等离子体质谱仪(ICP-MS)测定了采样点土壤剖面中重金属Cd的总量,同时对其分布特征进
为了解决城市化过程中地方政府面临的资金缺口和融资难问题,我国逐步放松了对地方政府举债的控制。2009年财政部开始代理发行地方债券,其后2011年经国务院批准,上海市、浙江
私法自治是大陆民法的基本原则,体现为民事主体有根据意思表示形成相应私法关系的自由。合同自由是私法自由在合同领域的重要体现。但合同是否具有法律拘束力,能否在合同纠纷中
桥梁作为道路交通的关键结合部与控制部位,它受到设计标准、使用年限、工程材料、外部环境、养护质量、交通量、作用荷载、偶然事故等因素错综复杂的交互影响,必然会使桥梁结构
进入新世纪以来,信息技术和IT产业发展的十分迅速,传统的计算模式已经很难去适应不断增长的数据处理的需求,因此需要一种新型的、高效的计算模式。云计算能够提供通用的高效计算