论文部分内容阅读
近年来,互联网技术飞速发展,而伴随着互联网的发展,数据正以前所未有的速度产生和积累。为了有效的挖掘出海量数据中包含的有效信息并且根据这些信息为用户提出建议和参考,推荐系统应运而生,而且越来越受到各界人士的重视,存在巨大的发展空间和研究价值。一般的推荐系统对于用户特征的处理方面具有局限性,太过于依赖人工经验和对于业务的理解,对数据的挖掘和利用程度有限,难以获取利于推荐的高阶特征。另外,传统的随机森林算法对所有的基决策树直接进行集成,不进行筛选,而推荐数据集通常是一个含有噪声和冗余特征的高维数据集,因此,将随机森林算法应用于推荐时会存在干扰,导致其性能下降。为了解决上述问题,本论文研究和实现了基于用户画像特征数据集的个性化推荐算法。首先,本论文基于人工特征工程和深度学习算法构建了用户画像特征数据集,主要包括:1)基于阿里巴巴移动电商平台的真实大数据集进行数据分析和预处理,使其更适用于数据挖掘;2)基于人工经验、业务理解和统计分析,对数据进行特征构造和处理,该类特征从数据本身出发,并且加入了先验知识;3)基于改进的前馈神经网络来进行特征构造,该网络能够处理高维稀疏的特征,且具有自动学习特征的能力,能对低阶特征进行组合、变换,得到高阶特征;4)将前两部分进行整合作为细粒度的用户画像,并提出用户标签作为粗粒度用户画像,最后结合得到整体的用户画像特征数据集。实验结果表明,通过该数据集可以得到优于单一类型特征的效果,能够准确高效的完成用户的推荐任务。接下来,本论文提出了优化的随机森林算法,在基决策树融合的过程中加入了有指导性的融合,使得性能好的基决策树保留下来的概率更大,而降低性能差的基决策树对融合效果的影响,同时保证算法的泛化能力。实验结果表明,在含有噪音或冗余特征的真实推荐数据集上,改进后的随机森林算法相比传统随机森林算法具有更好的性能,分类能力更强,更能够满足实际的需求。最后,结合本论文提出的用户画像特征数据集和优化的随机森林算法,我们基于海量的用户数据,设计并实现了一个基于用户行为的个性化推荐系统,该系统分为套餐推荐和宽带产品推荐两个模块,分别进行了建模和分析。最终实验结果表明,该系统具有良好的性能,能够很好的适应现实推荐场景。