基于用户画像特征数据集的个性化推荐算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:Fijy520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网技术飞速发展,而伴随着互联网的发展,数据正以前所未有的速度产生和积累。为了有效的挖掘出海量数据中包含的有效信息并且根据这些信息为用户提出建议和参考,推荐系统应运而生,而且越来越受到各界人士的重视,存在巨大的发展空间和研究价值。一般的推荐系统对于用户特征的处理方面具有局限性,太过于依赖人工经验和对于业务的理解,对数据的挖掘和利用程度有限,难以获取利于推荐的高阶特征。另外,传统的随机森林算法对所有的基决策树直接进行集成,不进行筛选,而推荐数据集通常是一个含有噪声和冗余特征的高维数据集,因此,将随机森林算法应用于推荐时会存在干扰,导致其性能下降。为了解决上述问题,本论文研究和实现了基于用户画像特征数据集的个性化推荐算法。首先,本论文基于人工特征工程和深度学习算法构建了用户画像特征数据集,主要包括:1)基于阿里巴巴移动电商平台的真实大数据集进行数据分析和预处理,使其更适用于数据挖掘;2)基于人工经验、业务理解和统计分析,对数据进行特征构造和处理,该类特征从数据本身出发,并且加入了先验知识;3)基于改进的前馈神经网络来进行特征构造,该网络能够处理高维稀疏的特征,且具有自动学习特征的能力,能对低阶特征进行组合、变换,得到高阶特征;4)将前两部分进行整合作为细粒度的用户画像,并提出用户标签作为粗粒度用户画像,最后结合得到整体的用户画像特征数据集。实验结果表明,通过该数据集可以得到优于单一类型特征的效果,能够准确高效的完成用户的推荐任务。接下来,本论文提出了优化的随机森林算法,在基决策树融合的过程中加入了有指导性的融合,使得性能好的基决策树保留下来的概率更大,而降低性能差的基决策树对融合效果的影响,同时保证算法的泛化能力。实验结果表明,在含有噪音或冗余特征的真实推荐数据集上,改进后的随机森林算法相比传统随机森林算法具有更好的性能,分类能力更强,更能够满足实际的需求。最后,结合本论文提出的用户画像特征数据集和优化的随机森林算法,我们基于海量的用户数据,设计并实现了一个基于用户行为的个性化推荐系统,该系统分为套餐推荐和宽带产品推荐两个模块,分别进行了建模和分析。最终实验结果表明,该系统具有良好的性能,能够很好的适应现实推荐场景。
其他文献
2017年,新余农商银行(以下简称“我行”)迎来了挂牌开业五周年。这一年,我们用超预期的发展来庆祝自己改制五周年生日;这一年,我们用更稳健的业绩来收官自身第二个三年计划。一年来
报纸
目前我国小跨径桥梁多使用板式橡胶支座,板式橡胶支座不仅是传递上部结构与下部结构荷载的关键构件,而且还要保证桥梁的转动与位移,因此在桥梁结构中板式橡胶支座起着很重要
采用MiSeq高通量测序技术对湖北省恩施土家族苗族自治州宣恩县的3个米酒样品微生物多样性进行了解析,结果发现米酒中的细菌主要为隶属于Firmicutes(硬壁菌门)的Pediococcus(
合同的效力问题是合同法中的核心,合同是否发生效力是合同当事人实现合同目的的关键所在。针对如何评判无效合同尚有许多细节需要明确及客观分析,拟对其略述几点粗浅己见。
针对事前估算法在工程应用中的局限性,提出基于综合统计法的算法效率分析和优化方法。使用多个监测器对算法的运行时间进行事后统计,利用Admahl定律和加速比性能定律指出算法效
<正>一、对比之下见分明,好汉形象更突出语文教师几乎都有一个集体无意识,就是上课喜欢追求"面面俱到"。这样是否必要?又是否真的有效呢?为了让学生学得充分,学得有效,教学应
涩北气田气层层数多、储层疏松、易出砂,严重影响了气井生产能力的发挥。在充分利用试气、试井、气田试采以及长期生产数据、产气剖面、出砂压差等动态数据,并结合测井等静态
通过研究确定装配顺序的方法,以装配零部件构成和确定的装配顺序为输入,采用装配功能树到装配过程机制树映射的方法实现装配过程设计。在此基础上提出从功能需求、行为模型和过
期刊
我国经过三十几年的改革开放,经济方面取得了不俗的成绩,但是随着改革开放的深入,我们粗放式的经济发展方式已经走到了尽头,为了能够使我们的经济能够保持可持续健康地发展,