保护用户隐私数据的电子商务推荐系统研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:jim_666cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着21世纪移动互联网的高速发展,各个移动端平台都充实着大量质量层次不齐的信息,这种爆炸式的信息增长必然会导致信息不对称和信息质量低问题的产生,而推荐系统技术就是在这个背景下应运而生的。推荐系统是一种信息分发技术,连接了信息的生产者、信息分发平台和信息消费者三方,能够帮助信息消费者在不明确需求的情况下从海量的信息中筛选出对其有价值的信息。推荐系统不仅能够在用户视角上解决信息爆炸带来的一系列问题,还能够在商业领域中发挥重要作用,其中最典型的就是电商平台对推荐系统的应用。虽然推荐系统可以帮助用户筛选有价值的信息,也可以为企业带来明确的增量收益,但是仍然存在一些问题,例如用户隐私安全问题。目前也有针对保护用户隐私安全方面做推荐算法的研究,但经过加密后的数据会使得模型效果不是很理想,所以本文希望能够在保障用户数据的私密性的基础之上研究推荐的准确性问题。本文选取了阿里巴巴电商平台的用户行为数据进行分析,将推荐的准确性问题转化为预测是否购买商品的二分类问题,由于该数据完全不包含用户的隐私信息并对数据信息进行了脱敏处理,但是数据特征少的问题也会导致推荐准确率下降。所以针对此类研究问题本文对国内外的推荐技术展开研究,挑选二分类预测的模型,并针对数据特征少的特点进行改进。本文提出了CNN-XGBoost混合模型,能够有效挖掘少量数据特征中的复杂信息,提高二分类问题预测的准确率。具体来说,本文主要的研究工作和关键性成果如下:(1)总结归纳了推荐系统发展以来的关键性技术,主要分为了传统统计推荐模型和机器学习推荐模型两大类。并且对相关算法的理论知识进行总结和归纳,分析比对各类算法的优缺点,最终挑选出能够自行处理缺失值且能够防止过拟合的XGBoost模型作为分类器,以及能够从原始特征数据中挖掘出复杂信息的CNN模型,融合构造出CNNXGBoost混合模型。(2)在实证分析的数据部分,首先对原始数据进行了初步的探索性分析,了解到庞大的数据中蕴含的用户、商品以及他们之间潜在的关联关系,例如用户的购买行为往往集中在热门商品上,这对电商业务的理解有极大帮助,为手动构建特征提供了正确的思路。接下来在原始数据的处理部分,利用填补法进行缺失值处理、处理异常值以及解决了数据不平衡问题,并将数据集按照日期进行分割。最后根据电商业务知识根据原始数据的六个变量手动构建了包含用户特征、商品特征、商品类型特征、用户-商品交互特征、用户-商品类型交互特征五大类型共39个特征的特征工程。(3)在实证分析的实验部分,进行了模型训练和对比分析。分别对XGBoost、CNN和CNN-XGBoost进行了模型训练,选取的评估指标为AUC值,参考指标为Logloss值和准确率ACC值,经过参数调优后得到模型的最佳效果,其中CNN-XGBoost的AUC值为0.8355,比单个模型XGBoost的AUC值0.8317高出0.46%,比单个模型CNN的AUC值0.8317高出12.63%,实验验证了本文所提出CNN-XGBoost混合模型的效果最佳。(4)本文一共包含两个创新点。第一,研究角度新,虽然前人也有通过对数据进行加密或者差分隐私保护法研究保护用户数据相关的推荐,但只是加密用户隐私数据往往不能从源头杜绝数据的不正当收集,本文采取将少数特征的用户行为数据通过电商业务知识融合进行特征工程搭建,来提高购买概率的预测准确度。第二,本文为推荐系统的购买概率预测提供了新思路,使用了CNN和XGBoost融合的混合模型进行购买概率预测,利用了CNN能够提取原始特征数据中复杂的高阶特征信息的特点,解决了特征工程的数量和质量的问题。
其他文献
羌北地块位于青藏高原中部,是高原上面积较大、具有稳定结晶基底、古生代以来地层发育相对较全的稳定地块。现有地质资料表明,羌北地块南、北两侧均存在早古生代和晚古生代特提斯洋的记录。由于缺乏完整可靠的古地磁数据约束羌北地块古生代期间的古地理位置及变化,羌北地块与冈瓦纳大陆或欧亚大陆的亲缘性及离散聚合过程仍不明确,羌北地块南北两侧原、古特提斯洋的演化过程存在较大争议。本文对西藏阿里地区龙木措北侧的志留系灰
学位
股指期货是以股票价格指数为标的标准化期货合约,股指期货买卖两方可以根据事先约定的股票价格指数大小,完成标的股票价格指数交易。当股指期货合约到约定时间时,使用现金结算差价实现交割。2019年4月19日,我国第四次对股指期货市场交易制度放松限制,大幅度地降低交易成本。此后A股市场仅用半个多月就从3288点迅速下跌至2926点,此后市场对股指期货市场批判的声音再次出现,对于股指期货放松政策对股票市场定价
学位
进入21世纪以来,全球资本市场价格大幅波动,对各国金融经济造成了巨大冲击。以我国证券市场为例,受2008年金融危机、2015年股市泡沫、2020年新冠疫情等事件的影响,股市出现了罕见的极端下跌,严重冲击了中国金融市场稳定与实体经济发展。对于这类概率极低、一旦发生却会引发高额损失的事件,学者将其定义为“尾部风险”。近年来,个股尾部风险与预期收益的关系受到国外学者的关注。Atilgan et al.(
学位
自2013年余额宝问世以来,互联网金融进入快速发展期,国民理财意识觉醒,互联网理财以及网贷平台以其便利性、高流动性和高收益性瓜分银行客源,抢占银行理财市场份额,分流大量银行存款,但另一方面也倒逼银行进行业务创新,优化收入结构,改善盈利模式。此外,近几年“基金大跌”频繁登上微博热搜,投资者们纷纷自嘲被“割韭菜”,关注和购买理财产品的人越来越多;且相比于银行存款而言,购买基金等理财产品处理闲置资产不但
学位
黄土是一种具有亚稳定性结构的非饱和土。近年来,随着一系列西部开发战略的实施,西北黄土地区工程建设活动空前频繁。而黄土地区特有的梁峁地形和沟壑纵横的地貌成为制约城市发展的主要因素,可利用土地资源匮乏与用地需求急剧增长之间的矛盾日渐尖锐。这种情况下,“削山填沟”成为拓展或新增建设用地的主要工程措施。然而,这一举措打破了原有的地质和水力平衡。在填方完成后,地质和水力再次达到平衡需要一定的时间,这时填方边
学位
渤中凹陷是渤海地区面积最大的富烃凹陷,同时也是渤海湾盆地新生代时期的沉降中心,其东营组和沙河街组的烃源岩埋深较大,大部分钻井位于构造高部位,钻遇深层优质烃源岩的井较少,且烃源岩具有较强的非均质性,仅通过地球化学分析测试数据难以针对研究区烃源岩进行精细评价,因此,本文基于有机地球化学分析,结合地球物理测井资料和地震资料对渤中凹陷西南部陆相深层烃源岩进行综合评价,为研究区深层烃源岩研究提供一定的依据。
学位
如今,松辽盆地浅层油气产量日益下降,勘探难度也不断增大。为了寻找和发现更多油气藏,提升我国油气资源储量,松辽盆地深层油气勘探起着至关重要的作用,而松辽盆地热史及石炭-二叠系烃源岩热演化史的研究对于深部油气勘探将具有重要意义。本文针对松辽盆地周缘石炭-二叠系地层进行野外地质调查、岩石薄片镜下观察以及主微量分析,研究其沉积特征及地质意义。在前人研究的基础上,应用镜质体反射率法、裂变径迹法和Easy%R
学位
随着经济飞速发展,人民生活水平逐渐提升,股票成为了许多投资者的的重要理财方式,股市还能吸引投资,对国家和个人都十分重要。但股市风险高波动大,能否分析掌握股票的波动规律并有效预测股票的走向就显得意义重大。本文介绍了一种新的变量选择方法EnMuSP,并结合支持向量机构建了股票走势预测模型,用中国石油股票的历史数据做实证分析:最初收集了36个待选自变量,在数据的预处理阶段剔除掉了5个与股票涨跌无关的变量
学位
近年来食品安全问题受到人们越来越多的关注,食品种类的增加,食品安全问题不断涌现,直接关系到广大人民群众的生命安全,关系到经济发展和社会稳定。因此,如何快速灵敏地对食品污染物进行检测成为亟待解决的问题。其中,纳米材料的快速发展为食品安全检测技术提供了新的契机,尤其是具有比表面积较大、孔隙结构可调、结晶度较高、结构可功能化等优异性能的共价有机骨架(COFs)材料,在食品安全及生物医药等领域中的电化学传
学位
添加次序试验设计是一类特殊的试验设计,其主要研究材料或成分以不同的次序加入试验对试验结果的影响,进而通过比较选出最优的添加次序。假设添加次序试验中有?个成分,则全部添加次序总共有?!种。在成分个数?较小时,可以通过对所有的添加次序全部进行试验进而找到最优的添加次序。然而,当成分?较大时(例如,?=10,10!≈360万),对所有?!个添加次序全部进行试验通常是行不通的,因此非常有必要从全部添加次序
学位