论文部分内容阅读
随着近些年网络环境的迅速发展,网络信息正在遍及我们所需要的各个方面,人们在线获取的数据也越来越丰富,但却导致了数据量的急速增长。根据数据统计结果表示,在每分钟时间内,Facebook的活跃用户会在网络上分享约68.4万比特的信息,Twitter用户则会发出超过10万条,世界上90%的数据产生在2010—2012年,到2020年,全球信息总量将会是2011年的22倍,达到35.2 ZB[1]。但其中有很多属于无关冗余数据,这导致了“信息超载[2](information overload)”问题,网络世界被信息所包围,阿里巴巴集团前CEO马云在一次网络信息技术演讲中发表了他的最新观点,人类正在从IT(information technology)走向DT(data technology)时代[3-4],IT时代是以自我控制、自我管理为主,而DT时代,它是以服务大众、推动生产力为主的技术。因此,在这样的数据量急速增长的情况下,推荐系统[5-7]应运而生,成为帮助用户获取有效信息的必要工具,作为一种解决信息量超载的过滤技术,起到了重要的作用。传统的推荐算法是将用户信息和项目信息映射为矩阵形式,计算它们的余弦相似度或皮尔森相似函数[8-9],通过分析找出用户感兴趣的项目进行推荐,但是在实际应用中会存在因为用户以往信息不全导致的数据稀疏性问题[10-11],数据增加情况下的扩展性[12]问题,以及没有以往用户信息情况下的冷启动问题[13]等,影响推荐结果的准确性。针对推荐算法中存在的一系列问题,本论文重点对数据稀疏性以及利用用户信息不足的情况进行研究,将传统推荐算法进行改进,提出一种混合推荐算法,经过长期在线阅读以及对网络图书商城的细致分析,发现现阶段网络中对于图书的关注度以及推荐准确度上有待提高,读者无法在网络的众多图书中准确找到和自己兴趣相似的或是和以往读过的书大致相同的书籍,从而需要花费大量的时间进行寻找,所以本文将改进的算法应用于书籍数据集。针对书籍这种数量巨大,种类繁多的情况进行探究,将算法应用于图书数据集进行验证。主要工作如下:1.对推荐系统相关理论知识、技术、背景等进行研究,深刻认识推荐系统对未来网络应用发展的深远影响;对传统算法进行对比研究,总结传统推荐算法存在的不足之处,确定解决数据稀疏问题和推荐算法融入情感极性分析作为本文的研究重点。2.针对数据稀疏问题,采用数据预处理方法,去除未对任何项目评分的用户和没有用户进行评分的项目,然后根据用户的以往行为,挖掘用户间关系和用户项目间关系,通过已评分项目构建用户对和项目对,计算相似度并构建相似矩阵,组成最近邻集合,通过协同过滤进行预测评分;融合XGBoost算法进行用户和项目的分类,计算出分类错误率,通过算法的训练对权值和学习率的更新,找出分类错误的样本,并重置权重,达到精准分类。3.经研究发现用户的情感信息深层次特征对推荐算法的准确率有较大影响,因此本文对用户的评价信息进行建模,以发现其中包含情感信息,判断情感极性,通过标准库进行用户兴趣粗分类,然后根据用户,项目信息,用户对于项目的预测评分等信息训练卷积神经网络,并通过反向传播调整学习率,卷积核个数等相关参数。训练出最终得分,进行评分排行,并按其将项目推荐给用户。4.为证明本文提出算法的有效性,在清华大学整理的豆瓣读书top250图书信息与热门评论公开数据集上进行实验,首先对数据集进行了数据清洗,将未对项目做出任何评论的数据进行了清除,减少了信息过载的同时在数据量上也有所减少,有利于后期的训练过程。然后通过XGBoost算法进行先进行分类,进一步解决了“数据过载”的情况。在后期的评分预测中,提升了准确率,在训练时间上有明显的降低。实验结果表明,本文所提出的算法与相比较的算法相比,在推荐准确率上有一定提高,在图书推荐领域有一定的应用价值。