基于改进协同过滤与GBDT混合推荐算法的研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:amperezh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和普及,越来越多的人会通过互联网来获取有价值的信息,比如网上购物,用户可以通过电商平台的数据,搜索并获取到心仪的商品。但随着电商的发展以及用户的增加,产生的海量信息会造成信息过载的问题,会对用户的选择造成严重的干扰。商品推荐算法能够帮助用户快速获取有价值的信息,使信息过载问题得到有效的解决,是当前的热门研究方向。推荐算法不仅可以在海量数据中进行筛选,主动推荐感兴趣的信息,还可以针对用户进行个性化推荐,简化用户对目标商品的获取过程,节省时间的花费。为提高推荐系统的准确性和高效性,本文设计了一种基于改进协同过滤与GBDT混合推荐算法,该算法主要思想为基于用户行为数据预测用户购买行为,设计了一种新的预测用户购买行为的算法模型。研究内容包括:1)数据预处理,以此来提高原始数据的质量,并通过样本的选取来避免正负样本相差过大的问题。2)特征工程,主要从特征提取、特征选择、构建特征体系三个方面进行分析。3)推荐算法的模型设计,本文将选取协同过滤和决策树混合算法来做推荐模型。针对与用户有交互品牌数据,采取决策树的衍生算法随机森林来进行处理,以避免决策树的过拟合问题。针对与用户无交互品牌的数据,采用改进的协同过滤算法进行处理,在计算过程中为用户的行为给予层次分析的权重,以改善协同过滤算法的合理性。然后通过混合算法的结合方式将随机森林和协同过滤的推荐结果混合,并将混合的推荐结果输入GBDT模型中进行进一步的优化,使本文设计的推荐算法模型更加完善。为了验证混合推荐算法的有效性与优越性,本文采用了当前主流的大规模数据处理计算引擎Spark开发环境进行实现与分组验证。文中详细的介绍了Spark推荐系统的设计与实现架构,其包含监控模块、数据存储模块、离线计算模块、推荐引擎模块等内容。同时给出了系统实现的数据库设计与特征体系的构建流程,最后重点论述了进行混合推荐算法与传统单一推荐算法对比实验以及基于不同的平台环境下进行混合推荐算法运行响应对比实验。实验结果数据表明,在Spark环境下设计并实现的混合推荐算法在召回率、准确率、响应性等具有较好的有效性与优越性,改善了用户的购物体验,同时该混合算法为其他同类推荐算法的设计与实现提供了较好的参考模型。
其他文献
随着中小企业发展迅速,企业内部信息的复杂程度和增长速度也呈日益攀升的态势,实现中小企业信息化愈发迫切。搜索引擎作为互联网时代获取信息的重要工具之一,通用搜索引擎主要面向大众使用,能够帮助人们快速获取有效信息,然而中小企业具有发展规模小和信息隐私性高的独特之处,完全照搬通用搜索引擎无法完全解决问题。面向中小企业开发的搜索引擎应具备服务器适应并发网络环境、运维成本低、搜索结果具有针对性等特点。本文针对
辐射干扰自适应抵消系统会对邻频有用信号造成衰减,针对独立台站天线间辐射干扰,在干扰抵消系统中采用一种陷波带宽压缩方法不仅能够在抵消干扰信号的同时避免对有用信号的衰减,而且在频率资源有限的条件下,还可以达到减小收发平台频率间隔以缓解紧张的频率资源的目的。首先,本文介绍了自适应干扰抵消技术的理论基础,讨论了自适应滤波器的原理、组成和主要应用,对两种主要自适应滤波算法进行了分析与对比,把干扰抵消技术分为
目的观察扶正解毒方联合熊胆粉治疗儿童持续性、慢性免疫性血小板减少症(Inmmune thrombocytopenia,ITP)合并肺炎支原体(Mycoplasma pneumoniae,MP)感染的临床疗效。以ITP患儿多易合并MP感染为基本出发点,结合余惠平教授临床应用熊胆粉治疗这类疾病的有效临床经验,研究扶正解毒方联合熊胆粉治疗ITP合并MP感染患儿的临床疗效以及对患儿各项临床症状的改善情况,
全球可供开发的镍资源主要分为两种:硫化镍矿和氧化镍矿。由于镍需求量的增加,品位高且易处理的硫化镍矿资源随之减少,低品位的红土矿成为研究重点。我国云南某地红土矿具有
本论文尝试从“文学世界”的塑造这个角度切入,以“意义”、“身体”、“语言”三者作为“文学世界”构成的基本分析要素,对贾平凹写作做一个既是横向上又是纵向上的整体把握。从这一视角出发,我们或许可以将贾平凹整个创作分为三个阶段:第一个阶段为1977年—1983年;第二个阶段为1983年—1993年;第三个阶段为1993年至今。与这三个阶段相对应,贾平凹的创作又大致分为三种世界:第一种是纯真浪漫的艺术世界
随着国家经济的不断发展,改革开放所带来的红利逐步释放,国家综合实力得以显著提升,社会生产生活方面也呈现出欣欣向荣的局面。社会经济潜力得到巨大的激发,主要表现为居民的生活状况得到了极大的改善,需求能力也逐步增强,消费水平得以大幅提升。另外,由于消费市场需求旺盛,小额信贷业务则更加彰显出其独特的魅力。我国早在1999年初就发布了小额信贷的指导意见。意见中指出,商业银行应当积极面向农户、个体工商户、中小
随着信息技术的发展和数字时代的来临,各行各业的数据量均呈现前所未有的爆发式增长,这不仅给信息存储行业发展带来压力和挑战,更给信息存储设备制造商带来机遇。而经济全球
散文,是文学宝库中耀眼的组成,是中学语文教育重要的体裁。散文有限的篇幅,可描写世间万物,抒发无尽的情感,其中还流淌着作家对生活、对历史、对社会审视的智慧。孙绍振教授对百年散文理论探微,从理论的高度,以审美价值和情感特征为角度对散文进行分类,使散文的分类实现逻辑和历史的统一。本文所研究的对象是其分类中的“审智散文”。《普通高中语文课程标准(2017年版)》指出:“语文课程是工具性和人文性的统一……发
经济发展是我国社会主义事业发展的必要条件,促进产业结构升级是我国社会主义经济事业发展中的关键一环,而金融集聚是经济发展和产业结构升级的集中表现和核心动力。面对“金融集聚与产业结构升级”这一重要议题,与此相关的政策理论与实践检验,亟需强大的学术支撑。因此,探索如何有效发挥相对应的溢出作用,已成为学术界的重要研究方向。本研究便是在此背景下,聚焦金融集聚如何对广西壮族自治区(以下简称“广西”)产业结构升
当世界经济处于深度调整期、不确定性依然突出时,最大的危险并非不确定性本身,而是延续过去的逻辑。当中国经济发展进入新常态,建设特色小镇,成为浙江适应和引领经济发展新常