网络用户偏好预测关键技术研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:jackyddd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动计算技术的不断发展,以社交网络、电子商务为代表的网络应用迅速普及,致使网络中数据产生的速度和规模都空前高涨,人们进入了大数据时代。这些数据中蕴含着大量与人们的偏好相关的信息,如何从大量纷繁复杂的数据信息中准确、快速地找出人们关心的内容,如何有效地挖掘、理解和预测用户偏好进而提供个性化推荐服务,是目前互联网数据科学领域学术界和工业界共同关注的热点问题。传统的基于人工、基于统计和经验公式、基于单一协同过滤的方法已经不能适应现实互联网环境中数据庞大、主体多、无中心等特点。同时,网络用户行为呈现出高度复杂化和多样化的特征,传统用户分析模型难以准确挖掘数据的本质规律,定位用户偏好。此外,机器学习、人工智能技术的发展为用户偏好预测研究提供了新的思路,但仍处于探索发展阶段。鉴于此,本文以个性化推荐为目标,对用户偏好预测研究过程中偏好表达不完整、模型不合理、特殊因素影响未考虑等问题进行深入讨论,尝试运用机器学习的思想方法,从完善模型、提高推荐效率等角度出发,对网络用户偏好预测关键技术进行研究。依照研究对象(偏好获取方式)从直接到间接,研究场景从通用到特殊的顺序,将重点放在评分预测、基于偏好向量的商品排序优化、辅助信息对预测用户偏好的影响、面向特殊应用场景的偏好预测等问题上。论文的工作得到了国家自然科学基金课题“互联网用户偏好描述方法、形成机制与演化模式研究”(No.61271308)、“在线社交网络舆论传播演化模式及热点预测方法研究”(No.61172072),北京市自然科学基金资助项目“网络社区舆论趋势预测与观点演化机制研究”(No.4112045),和中央高校基本科研业务费专项资金研究生创新项目“社交网络中基于LBSN的个性化推荐及用户偏好研究”(No.2016YJS028)等的支持。论文的主要研究工作和创新点如下:1.研究了静态参数对于评分偏好预测精度的影响,提出了参数动态化评分偏好预测模型。用户评分是能直观显示用户偏好,并可解释性较强的一种用户偏好数据。论文重点研究了评分预测问题中的矩阵分解方法。通过数据分析发现,矩阵分解方法中存在着正则化参数固定和预测评分分布不符合真实评分规律两个重要的问题。针对以上两个问题,论文提出了改进的动态矩阵分解及微调模型,创新点主要体现在两个方面,首先在充分研究矩阵分解过程预测值精度变化规律基础上,论文提出了动态正则化参数度量算法,使正则化参数不再被固定为一个常数,而是随着矩阵分解的优化过程自适应的动态变化,解决了正则化参数的取值问题。其次,为解决初始矩阵和预测矩阵之间评分分布的差距问题,本文提出针对最终预测矩阵的评分微调算法,使预测结果不仅能达到全局最优,还能适应真实的评分分布规律。实验表明,相对于传统矩阵分解模型,该模型能够提升评分预测问题的预测精度,同时预测结果能够符合真实数据的分布规律。2.研究了基于偏好向量的商品排序问题,针对初始偏好向量不精确的问题,提出了用户偏好向量的自适应更新模型。除评分外,用户偏好向量也是常用的直接表示用户偏好的数据类型之一,但其存在表达不完整不精确的问题。鉴于此,本论文在研究用户偏好向量的内容组成特征及表示形式基础上,分析讨论了面向偏好学习的传统自适应更新模型,并结合实际应用场景,针对现有模型的不足之处,提出了改进方法,建立了新的模型。创新点主要体现在:首先,模型重点观察并收集用户与推荐系统交互产生的隐式反馈信息,从提高模型精度的角度出发,针对自适应更新中隐式反馈候选项溢出区影响力不平衡的问题,引入加权管理机制,提出了溢出区候选项影响力量化算法。其次,从实际应用角度出发,针对真实使用环境中不同用户对于推荐物品的多属性关注程度不同的现象,提出基于滑动窗口的用户多属性量化算法,预测用户在实际选择过程中的真实选择行为。实验分析表明,在真实的推荐场景下,基于自适应更新后的偏好向量生成的推荐列表排序表现有较大提升。3.研究了域因素对提升用户偏好预测的关键性作用,提出了基于矩阵分解框架的域感知偏好预测模型。在真实环境中,能够直接收集到的如评分数据这类直接表征用户偏好的显式反馈非常稀少,同时传统的基于用户-物品二维的偏好研究模型能够挖掘的信息有限。针对以上问题,论文将研究维度扩展至“域”中,重点关注域因素这类辅助信息(side information)对于用户偏好的影响。论文详细讨论并明确了域在用户偏好分析中的定义,解释了为什么要加入域因素来指导偏好预测。受已有方法启发,并针对其应用过程中的缺陷,论文提出了改进方法,建立了域感知偏好预测模型。主要创新点体现在:模型将域知识直接映射到矩阵分解框架的潜在空间进行学习,挖掘用户与域,用户与物品,物品与域三重潜在关系。该模型主要用于解决top-N推荐问题;实证数据分析表明,域感知模型在top-N推荐精度上较传统模型有明显提升。4.研究了地理社交网络特征,针对地理、社交等因素对于位置偏好预测精度的影响,提出了地理位置偏好预测模型。论文重点关注地理社交网络这一特殊应用场景,将用户的地理位置作为辅助信息(side information),对用户的地理位置偏好展开研究。为提高地理偏好的预测精度,本文分析了影响地理位置偏好的三个因素:内容因素、社交因素、距离因素,并对三个影响因素分别进行量化建模。主要创新点体现在:针对内容影响因素,本文提出了地理位置多标签提取方法,将用户-位置矩阵转换为用户-标签矩阵进行后续分析;针对社交影响因素,本文提出了好友之间兴趣相似性度量方法;针对距离影响因素,本文提出了基于距离衰减的影响力量化算法,模拟真实环境下所要被推荐的地理位置与用户之间的距离对于用户选择的影响。实验分析表明,提出的模型符合地理社交应用环境,能有效提升位置推荐效率。
其他文献
<正> 我国社会主义革命在经济战线上取得基本胜利,在政治战线和思想战线上取得决定性的胜利,使得生产关系起了深刻的变化。生产关系的一个方面生产资料公有制的问题基本上解决了;经历了反右和全民性整风的伟大胜利,驱除了三风五气,密
羧甲基纤维素(CMC)具有可再生、无生物毒性等优势而受到人们的关注。基于CMC制备金属高分子复合膜不仅有利于改善传统复合膜难降解、成本高等缺点,还能提高材料的强度和模量,这
目前,在海洋及湖泊河流等环境中服役的船舶及水下结构,因为结构应力及人为的因素,腐蚀状况严重,长期以往会造成诸多安全隐患,因此需要一种安全有效的水下检测方法能够完成检测任务。相比较其他水下检测方法,使用水下探伤机器人成本低、安全性高,有不可比拟的优势。本文结合江苏省高技术船舶协同创新中心2017年科研项目,参与研制一款探伤用水下ROV样机,同时开展水下机器人定位及路径规划方法研究。首先,根据目前国内
随着素质教育改革的不断深化,人们逐渐认识到美术教育对儿童成长和学习的重要性。儿童美术教育机构发展迅速,在社会上掀起一阵热潮,凡是有力量办学的地方,几乎都能看到有关儿
煤矿机电设备是煤矿运行的必备设备,保证煤矿机电设备高质量的运行,对于煤矿企业的安全生产、提高煤矿企业的经济效益和社会效益具有非常重要的意义。机电设备安装质量的好坏决
针对集中处理站噪声超标的问题,陆梁油田采取室内吸声处理、室内隔声屏障、通风隔声罩等治理技术对两座集中处理站的噪声进行治理.结果表明:压缩机房混响时间由13 s降低到0.8s
<正> 广东经济学会于七月十四日举行了广东省特区经济及香港现代经济科研规划座谈会。与会者制定了有关的规划和措施,并成立了香港现代经济研究会。
循环经济是在可持续发展的思想指导下,按照清洁生产的方式,对能源及其废弃物实行综合利用的生产活动过程。它要求把经济活动组成一个“资源-产品-消费-再生资源”的反馈式流程
粒子群算法作为重要的群智能优化算法之一,已被应用到各种优化问题的求解中,取得了较好的效果。但是在求解大规模优化问题时仍存在优化效率低,收敛速度慢以及种群多样性缺失等问题。基于此,本文对粒子群算法进行改进,提高粒子群算法的优化性能,主要工作如下:1.为改善社会学习粒子群算法的优化性能,将分组策略及反向学习思想引入算法中,进而提出一种基于分组策略的改进粒子群算法,并用于求解大规模优化问题。首先,借鉴分
在现阶段的发展中,我国的测绘技术取得了一定的发展,由于社会发展步伐的不断加快,很多的技术都没有办法适应现阶段的发展,比方说在地籍测量方面,没有办法与国际当中的一些较为先进