推荐系统中超参数搜索算法的实践研究

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:y886520520886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统是信息过载问题下所采取的解决方案,用户在面临海量的信息时如何有效地发现自己真正所需的信息是推荐系统需要解决的首要问题。好的推荐系统可以利用用户、物品的信息以及历史交互信息,为进入系统的用户返回对应的推荐列表,帮助用户节省时间的同时满足用户需求。基于以上优势和适用场景,推荐系统在多个领域得到了广泛的应用,从电子商务平台到社交媒体,根据供应服务商的业务目标服务大众。随着推荐系统二十年来的发展,有两个研究问题急需解决:1)为满足高评估指标需求,推荐系统算法模型的结构越来越复杂,导致模型中超参数的维度扩增,若实验者不公布超参数的设置将很难复制算法模型效果;2)相较于图像识别等成熟的研究领域,推荐系统领域还处于发展的状态,缺乏一些基准模型对比的指南,使得一些新发表论文的对比实验中基准模型未得到充分的调优,在这样的实验结果下得到的新模型效果优于基准模型效果的结论是站不住脚的。上述两个问题中有个共通的解法是实现模型最佳表现的自动复原,换句话说,若能寻找每个基准模型使用哪种超参数搜索算法,能有效寻找到最佳的超参数组合,从而就能在文献缺乏相关记载时通过实验自动返回特定模型的(最)优表现效果,达成复刻实验的目的;此外,若能自动返回基准模型的最佳表现效果,那么问题二也就迎刃而解,实现推荐系统领域的公平性比较。接下来是有关于本文主要研究问题的介绍。本文首先介绍了研究内容的背景以及研究的意义,接着概括性地讲述了本文的研究内容、研究方法与研究结构,在此基础上展示了论文的主要贡献。随后根据推荐系统算法与超参数搜索算法两大类型算法的底层逻辑,将两类算法分别做了归类与文献回顾,其中将推荐系统算法领域中的模型按照技术分为基于内容的、基于协同过滤的和基于表示学习的推荐系统算法;将超参数搜索算法领域中的模型按照底层概念分为基于采样、基于贪心式、基于模型与基于超梯度的超参数搜索算法。最后从四类搜索算法中选取了现目前为止影响力较大的七种算法,分别是基于采样的超参数搜索算法中的随机搜索、Hyperband搜索和BOHB搜索,基于贪心式的模拟退火算法Anneal,基于模型的超参数搜索算法中的基于高斯过程的贝叶斯优化GPBO、TPE搜索和SMAC搜索。根据本文设定的研究目标,首先从八个与推荐系统相关的顶级会议Rec Sys、KDD、SIGIR、WWWW、IJCAI、AAAI、WSDM和CIKM中收集了141篇2017年到2021年间的文献,通过对文献实验数据集、对比基准算法与评估指标三方面的统计,加上尽可能全面地覆盖推荐系统算法领域以及数据集领域的考虑,最后挑选出k近邻Item KNN、纯奇异值分解Pure SVD、矩阵分解BPRMF、因子分解机FM、基于深度学习的Neu MF和基于图的NDCG六种推荐系统算法,以及音乐数据集Last FM、电影数据集Movie Lens-1M和评论数据集Epinions。在本文的实验部分,针对每一个数据集,结合超参数搜索算法对每一个挑选出来的推荐算法进行自动调参,再利用调试好的模型对每一个测试集上的用户生成长度为5和10的推荐列表,根据推荐列表与真实列表之间的差异返回使用特定超参数搜索得到的推荐模型在此数据集上的效果评估。根据汇总的实验数据可以发现,针对于数据集大小的区别,若数据集较小,使用简单的模型比如Item KNN、Pure SVD和BPRMF结合充分调优进行推荐便可得到较好的推荐效果;若实验数据集较大,则使用更为复杂的推荐系统模型如Neu MF和NGCF进行推荐得到的效果更好。从搜索算法的采样路径可以看出,随机搜索的样本点较为分散,基于模型的超参数搜索算法随着运行时间的推进会更加倾向于表现较好的超参数空间,而Hyperband和BOHB这两个借助提前终止的思想使其在更短地时间内采样更多的样本点。最后根据实验的评估指标汇总可以得到,Item KNN、Pure SVD、BPRMF和FM这四个推荐系统算法适合使用Anneal或TPE搜索算法调优;而结构更为复杂、资源要求更高的Neu MF和NGCF算法则更加适合使用Hyperband或BOHB搜索算法调优。此外,为保证实验的鲁棒性不推荐使用随机搜索进行调优,为保证实验中超参数数据类型的拓展性不推荐使用GPBO调优。
其他文献
2014年“11超日债”违约是我国首次债券实质性违约事件,由此,我国债券市场的刚性兑付被打破,尤其是2018年后债券频频“爆雷”,甚至出现了公司违约潮,这对我国债券市场乃至资本市场均形成了巨大的打击。近两年随着新冠疫情的传播,国内外的经济都遭受到了巨大的冲击,债券违约案例也居高不下,可见我国债券违约已然常态化。面对新的时代背景,对债券违约风险的研究也变得更加迫切。在样本选择方面,本文从Wind选取
学位
报纸
随着移动互联网的迅猛发展,人们能够很方便的通过手机获取各种资讯信息。但从海量的资讯信息中快速的找到用户感兴趣的内容十分困难,资讯推荐系统的存在就是帮助用户解决这一难题。资讯推荐是推荐场景中最有挑战性的课题,也是各大互联网平台争相研究的领域,只有准确的定位用户的偏好,推荐给用户感兴趣并且多元化、新颖性的资讯,提升用户的体验才能更好的在流量时代占据一席之地。而由于资讯推荐场景所存在的不同于其他场景的特
学位
报纸
近年来,全球气候变暖引起了世界范围内的重视,人们的关注点开始聚焦于人类活动导致的二氧化碳排放上来,其中主要表现为能源消费产生的碳排放。中国作为全世界碳排放量最大的国家,在全球碳减排行动上展现出大国担当,承诺“2030年前实现碳达峰,2060年前实现碳中和”。面对严峻的减排压力和经济高质量发展转型的阶段性目标,研究我国目前能源消费碳排放现状并积极探索符合我国国情的碳减排路径成为我国实现“双碳”目标的
学位
在宏观政策和互联网技术的双重推动下,互联网医疗高速发展。众包模式已被逐渐应用于互联网医疗领域,其中医疗众包问诊对解决广大患者医疗健康问题具有深刻的社会意义。该平台提供了医患沟通的新模式,发包患者在平台进行远程健康问题咨询,多名接包医生回复给出健康管理方案和治疗意见,极大地满足了患者问诊需求。与其它众包平台一致,医疗众包问诊平台同样会采用多种激励机制提升用户参与绩效。现有的众包平台主要存在两种激励模
学位
随着大数据的快速发展和研究学者们对医疗界的愈发关注,如何利用人工智能帮助住院病人提前预警,从而提高生存率并降低医院负担变得愈发受人关注。脓毒症(Sepsis)是一种由细菌等致病微生物入侵人体引起的全身炎症反应综合征,具有极高的发病率和死亡率。过去10年内,脓毒症在ICU住院病人中占比超过20%,且每年以超过8%的死亡率急剧增加,脓毒症的相关研究也因此在医疗领域颇受关注。如何及时对脓毒症进行预测变得
学位
现代化产业体系是经济高质量发展的基础与动力,建设现代化产业体系是实现经济高质量发展的必然要求。阐述了建设现代化产业体系和经济高质量发展的理论基础,以安徽省淮南市为例,分析了该市目前产业体系的发展短板,提出了通过建设现代化产业体系来提高城市经济发展质量的相关举措。。
期刊
自2006年开始,我国开始实行“半强制分红政策”,将现金分红行为和再融资资格挂钩,规定想要公开发行证券的上市公司应满足“最近三年以现金方式累计分配的利润不少于最近三年实现的年均可分配利润的百分之三十”的条件。但是,需要注意的是,利润表中的“可分配利润”是权责发生制下的利润,并不代表真实的现金流。自2007年我国采用与国际趋同的新会计准则以来,公允价值的运用逐渐增多,净利润和现金流之间差异扩大,造成
学位
发展“数字经济”是黑龙江省抢抓新一轮科技革命和产业变革机遇,实现“换道超车”的具体路径,通过“四化框架”融合现代化产业体系的各类要素,能够有效巩固产业体系根基、推动科技创新演进、提升现代金融服务能力、优化人力资源配置。为进一步完善现代化产业体系,黑龙江省需要优化数字经济发展环境、推动数字经济协调发展、促进数字经济与现代化产业体系要素融合。
期刊