长尾信息的个性化推荐中的特征选择优化算法

来源 :北京交通大学 | 被引量 : 9次 | 上传用户:ghostraider
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务的快速发展,购物网站产生了海量的商品信息,这使得用户难于从中发现目标商品(特别是长尾目标商品)。个性化推荐系统是当前解决这一问题的有效方式,研究改善推荐系统的性能具有巨大的经济价值。特征是从数据中提取的表征用户个性和偏好的量,如何选择高质量的特征对改善推荐系统的性能有着十分重要的意义。当前推荐系统领域的研究多集中在算法和模型,对特征选择优化的研究关注较少。本文对单模型推荐系统和分类器融合策略进行了研究,在此基础上提出了一种优化特征选择的融合算法,和一种可行的分类器融合方案。论文主要进行了以下三方面的工作:(1)对矩阵分解模型中的FunkSVD算法、逻辑回归算法(Logistic Regression,LR)和梯度迭代回归算法(Gradient Boosting Regression Tree,GBRT)的原理和实现进行了研究。分析了三种算法的模型复杂度、训练效率、应用场景和优势与不足,论述了LR算法对特征的筛选原理,以及GBRT算法的强分类能力,并对LR算法和GBRT算法的融合潜力进行了论证。(2)提出了一种基于逻辑回归和GBRT模型的融合算法。算法引入了分维度的特征筛选,用LR算法将特征区分为偏向于正样本和偏向于负样本两个维度;构建不同参数的LR算法,将特征筛选划分为不同的粒度;将GBRT算法训练特征的随机抽取优化为等比例从两个特征维度随机抽取;为GBRT算法的训练特征加入顺序规则,优化训练效率。(3)给出了一种分类器融合方案,选用基于逻辑回归和GBRT模型的融合算法以及FunkSVD算法进行分类结果融合重排序。算法的结果融合前用z-score归一化。(4)采用movielens数据集和天猫商城开放数据集作为实验数据集,F1指标作为推荐性能评测指标,以逻辑回归单模型和GBRT单模型做为对比对象,对算法进行了实验验证。实验证明使用本文算法和方案能够改善推荐系统性能,特别是基于逻辑回归和GBRT模型的融合算法的F1指标最大约有1.5%的提高。
其他文献
<正>2007年5月15日,一家私营企业冷库在对氨气管道进行焊接过程中发生爆炸,造成一起死亡1人,重伤3人,冷库及附属设施遭到严重破坏的重大的事故。1事故经过该冷库是新建的,在
本文围绕习近平总书记"聚天下英才而用之"的重要讲话精神,提出了以改革开放为动力,积极实施全球一流、全球引进、全球配置、全球接轨的"人才全球战略"框架性思路,并且按照问
从目前看,我国政府职能定位与市场经济宏观规律的内在要求相比,存在着一些错位。因此,要针对政府职能的定位,从五个方面进行改善。一是政府负责调研,制定发展规划;二是政府由
对硫、银、锡含量较高的玻利维亚某重选选锡尾矿进行了有价元素回收的试验研究,确定了以浮选为主、焙烧-氰化为辅的锡、硫、银回收工艺。闭路试验得到了硫品位46.70%、硫回收
党的十八届三中全会之后,政府不再用行政手段强行干预房地产的价格,而是通过“三合一”的组合政策综合调控房地产业,政府对低、中、高三类人群分类指导,通过房产税打压房地产
m习近平新时代中国特色社会主义思想是马克思主义哲学在当代中国的最新运用和集中体现,认真学习贯彻习近平新时代中国特色社会主义思想,必须深入理解和把握其所蕴涵的哲学智
我国有着漫长的边境线,许多毗邻国的边境居民同我国境内边民有着同族同源的血脉,两地通婚以及亲友探访十分普遍。随着国家法律制度的日益完善和执行力的增强,边防制度和婚姻
草原生态补奖政策作为牧区实现“生态保护”和“脱贫致富”双赢的重要措施,成为近年来学术界的研究热点。但是,生态补偿在理论层面存在很多争议,不少学者认为生态补偿的逻辑
期刊
目的:了解社区老年护理院老年患者院内感染发生情况及危险因素。方法:对某老年护理院2012年1月-2012年12月发生的63例院内感染病例进行回顾性分析,按院内感染发生的部位、年龄、