电商用户数据分析研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:zmaozhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电商行业,为了满足用户的个性化服务需求,广泛地应用推荐系统技术。在推荐技术中,仍面临着两个严峻的问题。第一个问题,是如何在个性化推荐模型训练前选择有效的特征。在机器学习算法应用前,通常会提取高维数据特征。但是特征维度过高,会导致训练时间增加和模型过拟合等维数灾难问题。所以,要剔除冗余特征和无效特征,保证每一维特征对预测结果都有区分性;第二个问题,是电商的实际数据集中,冷启动用户数量庞大,导致个性化推荐过程中预测评分准确率降低。所以,需要对这类冷启动用户进行特殊处理。另外,虽然因子分解机算法行业泛化能力强,但是它对所有特征都无差异同等处理,并无侧重,所以存在无法重点利用先验知识的缺点。针对以上问题,本文从理论和工程的角度给出以下解决方法:首先,针对特征有效性验证的问题上,通过利用实际电商数据用户的行为统计分析,提出一种单特征预测有效性的验证方法;然后,针对电商行业个性化推荐中面临的用户冷启动、因子分解机算法应用中先验知识利用不足的问题上,提出一种基于聚类的分级推荐系统,将系统的预测评分与用户基准评分线性融合,获得最终评分的方法。具体研究内容及创新点如下:首先,在实际的电商数据集中,提取出用户、商品、用户-商品对之间对算法预测结果可能有效的多维特征。然后,基于指定的特征,正交划分用户类别。再针对各类目标用户,进行相应的短信推送,通过短信召回率分析特征的有效性和重要性。实验证明,通过这种理论结合实际的特征有效性验证方法,能成功剔除掉对用户分类区分性弱的特征,提取出最能代表用户的主特征。通过验证保留下特征,可做为机器学习算法输入的特征。然后,在解决个性化推荐的评分预测问题中,提出一种基于聚类的分级推荐系统模型,该系统模型主要分为两部分:离线子系统和实时子系统。在离线子系统中,首先,利用聚类算法初步挖掘用户的行为模式,生成相似用户的小候选集列表,降低后续处理时用户数量;然后,对用户注册时的特征进行计算,离线生成用户的基准评分。在实时子系统中,利用因子分解机算法对用户进行个性化兴趣挖掘,计算用户与商品的相关性,预测用户对商品的评分,该预测评分与离线子系统产出的基准评分线性融合,生成用户-商品对的最终预测评分。实验验证,通过分级推荐模型处理推荐,较直接使用因子分解机算法推荐,预测的准确率和实时性都有所提高。
其他文献
<正>自古以来,人们就讲究睡午觉,无论是三顾茅庐还是程门立雪都有古人睡午觉的场景。午觉是活力的充电站,让我们下午还能够精力充沛,能量十足地应付接下来的学习和工作。午觉
以粉大蕉皮为材料,运用酸解法对香蕉皮果胶的提取工艺进行研究,通过单因素实验和正交实验,分析料液比、萃取pH值、萃取温度、萃取时间对香蕉皮中果胶提取量的影响,旨在为香蕉
<正> 引言当前,物权法的起草工作正在紧锣密鼓地进行着。受合同法制定过程中专家积极参与所取得的巨大成效的影响,物权法的起草也唤起了学界的极大兴趣。先是中国社会科学院
统计表明,感染是肾移植患者的主要死亡原因。肾移植手术很容易出现各种并发症,其中肺部感染是发病几率最高的,肺部感染具有病情发展迅速、临床治疗困难以及病情重等特点。因
[目的]总结26例糖尿病足病人的护理经验。[方法]将26例糖尿病足病人按Wagner分级法进行分级,实施相应的护理。[结果]除1例Wagner分级4级的病人,经积极治疗未能控制感染截肢外
<正>教育部基础教育二司乔玉全处长在全国外国语学校工作研究会第二十七届年会上指出:"外国语学校需要培养具有国际视野与本土情怀的现代公民,具有实干精神与远大志向的领导
本文分析指出了体育锻炼能使人的精神美和外在健康美和谐起来。健康美不但是外表形体、皮肤肌肉美丽,同时也是心、肺等各个脏器都很健康。身体素质增强了就能保持旺盛持久的
伴随着全球经济的飞速发展,各国在能源方面的需求与日俱增,常规的油气资源已经不能够满足世界各国对能源增长的需要。油页岩作为一种储量巨大,而且可以大规模开采和利用的化
随着电力市场改革的不断深入,电力企业客户信用风险管理越来越受到重视。文中介绍了电力企业信用风险管理系统的设计原理及实现方法。重点介绍了如何运用Logistic回归模型对
统计诊断就是对统计推断方法解决问题的全过程进行诊断。而影响分析是统计诊断中十分重要的分支,它以强大的应用背景,新颖的统计思想,广泛的研究内容和丰富的实际成果开创了