基于卷积神经网络的混合推荐算法研究

来源 :长春工业大学 | 被引量 : 1次 | 上传用户:lollipop1910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年网络环境的迅速发展,网络信息正在遍及我们所需要的各个方面,人们在线获取的数据也越来越丰富,但却导致了数据量的急速增长。根据数据统计结果表示,在每分钟时间内,Facebook的活跃用户会在网络上分享约68.4万比特的信息,Twitter用户则会发出超过10万条,世界上90%的数据产生在2010—2012年,到2020年,全球信息总量将会是2011年的22倍,达到35.2 ZB[1]。但其中有很多属于无关冗余数据,这导致了“信息超载[2](information overload)”问题,网络世界被信息所包围,阿里巴巴集团前CEO马云在一次网络信息技术演讲中发表了他的最新观点,人类正在从IT(information technology)走向DT(data technology)时代[3-4],IT时代是以自我控制、自我管理为主,而DT时代,它是以服务大众、推动生产力为主的技术。因此,在这样的数据量急速增长的情况下,推荐系统[5-7]应运而生,成为帮助用户获取有效信息的必要工具,作为一种解决信息量超载的过滤技术,起到了重要的作用。传统的推荐算法是将用户信息和项目信息映射为矩阵形式,计算它们的余弦相似度或皮尔森相似函数[8-9],通过分析找出用户感兴趣的项目进行推荐,但是在实际应用中会存在因为用户以往信息不全导致的数据稀疏性问题[10-11],数据增加情况下的扩展性[12]问题,以及没有以往用户信息情况下的冷启动问题[13]等,影响推荐结果的准确性。针对推荐算法中存在的一系列问题,本论文重点对数据稀疏性以及利用用户信息不足的情况进行研究,将传统推荐算法进行改进,提出一种混合推荐算法,经过长期在线阅读以及对网络图书商城的细致分析,发现现阶段网络中对于图书的关注度以及推荐准确度上有待提高,读者无法在网络的众多图书中准确找到和自己兴趣相似的或是和以往读过的书大致相同的书籍,从而需要花费大量的时间进行寻找,所以本文将改进的算法应用于书籍数据集。针对书籍这种数量巨大,种类繁多的情况进行探究,将算法应用于图书数据集进行验证。主要工作如下:1.对推荐系统相关理论知识、技术、背景等进行研究,深刻认识推荐系统对未来网络应用发展的深远影响;对传统算法进行对比研究,总结传统推荐算法存在的不足之处,确定解决数据稀疏问题和推荐算法融入情感极性分析作为本文的研究重点。2.针对数据稀疏问题,采用数据预处理方法,去除未对任何项目评分的用户和没有用户进行评分的项目,然后根据用户的以往行为,挖掘用户间关系和用户项目间关系,通过已评分项目构建用户对和项目对,计算相似度并构建相似矩阵,组成最近邻集合,通过协同过滤进行预测评分;融合XGBoost算法进行用户和项目的分类,计算出分类错误率,通过算法的训练对权值和学习率的更新,找出分类错误的样本,并重置权重,达到精准分类。3.经研究发现用户的情感信息深层次特征对推荐算法的准确率有较大影响,因此本文对用户的评价信息进行建模,以发现其中包含情感信息,判断情感极性,通过标准库进行用户兴趣粗分类,然后根据用户,项目信息,用户对于项目的预测评分等信息训练卷积神经网络,并通过反向传播调整学习率,卷积核个数等相关参数。训练出最终得分,进行评分排行,并按其将项目推荐给用户。4.为证明本文提出算法的有效性,在清华大学整理的豆瓣读书top250图书信息与热门评论公开数据集上进行实验,首先对数据集进行了数据清洗,将未对项目做出任何评论的数据进行了清除,减少了信息过载的同时在数据量上也有所减少,有利于后期的训练过程。然后通过XGBoost算法进行先进行分类,进一步解决了“数据过载”的情况。在后期的评分预测中,提升了准确率,在训练时间上有明显的降低。实验结果表明,本文所提出的算法与相比较的算法相比,在推荐准确率上有一定提高,在图书推荐领域有一定的应用价值。
其他文献
公共财政是国家治理现代化和一切政权运行的物质基础,预算则直接影响一个国家的治理能力和治理水平。分税制改革以后,各级政府的财政资金开始以“专项”、“项目”的方式向下
养老保险经办服务是哈尔滨市养老保险经办机构作为政府行政服务机构所承担的主要职能,同时也是展示政府公信力的载体。养老保险经办服务质量不仅关系到服务对象的切身利益,还
<正>"整本书阅读"教学要取得实效,如下问题的解决是前提:推荐一本书的依据是什么?如何确定教学目标?如何将文本内容转化为教学内容,进而转化为学生的学习体验?如何评价这本书
介绍PDS和PDMS的材料参考数据库结构和功能,并结合工程使用阐述了材料参考数据库的特点、应用情况和进一步深化发展应用的一些思路。
在城镇化进程中,特色小镇是城乡资源双向流动的重要载体,在城市与乡村之间建设特色小镇,可以持续推动新型城镇化和城乡统筹发展,是实现城乡设施共建共享和产业融合发展的有效
背景和目的:甲状腺癌(Thyroid carcinoma,TC)作为最常见的内分泌恶性肿瘤,占头颈部恶性肿瘤的5.0%。研究表明,约95%的TC起源于甲状腺滤泡上皮细胞,包括分化型甲状腺癌、未分
在CESSNA 172R飞机的日常维护中,飞行机组经常反映燃油油量会出现多指、少指、摆动等现象,指示误差直接影响172R飞机在平时训练中的飞行安全。本文通过对172R飞机油量传感器
文章在对达州市的生态旅游资源进行了详细调查基础上,用SWOT分析方法,比较出了达州市的生态旅游资源开发的优劣势,并对今后生态旅游可持续发展提出战略及思路。
<正>函数是初中数学的重要内容.它所反映的函数思想,是指用函数的观点、方法,去观察分析运动变化过程中的变量间的关系,揭示规律,建立函数关系,从而运用函数知识解决问题的一
<正> 所谓植物人,是指由于严重的脑损害和意识的生理障碍,使大脑的高级活动完全丧失,但脑干的某些功能尚部分存在的一种临床综合征。为了避免诊断上的混乱,1972年日本脑外科