论文部分内容阅读
随着互联网和移动计算技术的不断发展,以社交网络、电子商务为代表的网络应用迅速普及,致使网络中数据产生的速度和规模都空前高涨,人们进入了大数据时代。这些数据中蕴含着大量与人们的偏好相关的信息,如何从大量纷繁复杂的数据信息中准确、快速地找出人们关心的内容,如何有效地挖掘、理解和预测用户偏好进而提供个性化推荐服务,是目前互联网数据科学领域学术界和工业界共同关注的热点问题。传统的基于人工、基于统计和经验公式、基于单一协同过滤的方法已经不能适应现实互联网环境中数据庞大、主体多、无中心等特点。同时,网络用户行为呈现出高度复杂化和多样化的特征,传统用户分析模型难以准确挖掘数据的本质规律,定位用户偏好。此外,机器学习、人工智能技术的发展为用户偏好预测研究提供了新的思路,但仍处于探索发展阶段。鉴于此,本文以个性化推荐为目标,对用户偏好预测研究过程中偏好表达不完整、模型不合理、特殊因素影响未考虑等问题进行深入讨论,尝试运用机器学习的思想方法,从完善模型、提高推荐效率等角度出发,对网络用户偏好预测关键技术进行研究。依照研究对象(偏好获取方式)从直接到间接,研究场景从通用到特殊的顺序,将重点放在评分预测、基于偏好向量的商品排序优化、辅助信息对预测用户偏好的影响、面向特殊应用场景的偏好预测等问题上。论文的工作得到了国家自然科学基金课题“互联网用户偏好描述方法、形成机制与演化模式研究”(No.61271308)、“在线社交网络舆论传播演化模式及热点预测方法研究”(No.61172072),北京市自然科学基金资助项目“网络社区舆论趋势预测与观点演化机制研究”(No.4112045),和中央高校基本科研业务费专项资金研究生创新项目“社交网络中基于LBSN的个性化推荐及用户偏好研究”(No.2016YJS028)等的支持。论文的主要研究工作和创新点如下:1.研究了静态参数对于评分偏好预测精度的影响,提出了参数动态化评分偏好预测模型。用户评分是能直观显示用户偏好,并可解释性较强的一种用户偏好数据。论文重点研究了评分预测问题中的矩阵分解方法。通过数据分析发现,矩阵分解方法中存在着正则化参数固定和预测评分分布不符合真实评分规律两个重要的问题。针对以上两个问题,论文提出了改进的动态矩阵分解及微调模型,创新点主要体现在两个方面,首先在充分研究矩阵分解过程预测值精度变化规律基础上,论文提出了动态正则化参数度量算法,使正则化参数不再被固定为一个常数,而是随着矩阵分解的优化过程自适应的动态变化,解决了正则化参数的取值问题。其次,为解决初始矩阵和预测矩阵之间评分分布的差距问题,本文提出针对最终预测矩阵的评分微调算法,使预测结果不仅能达到全局最优,还能适应真实的评分分布规律。实验表明,相对于传统矩阵分解模型,该模型能够提升评分预测问题的预测精度,同时预测结果能够符合真实数据的分布规律。2.研究了基于偏好向量的商品排序问题,针对初始偏好向量不精确的问题,提出了用户偏好向量的自适应更新模型。除评分外,用户偏好向量也是常用的直接表示用户偏好的数据类型之一,但其存在表达不完整不精确的问题。鉴于此,本论文在研究用户偏好向量的内容组成特征及表示形式基础上,分析讨论了面向偏好学习的传统自适应更新模型,并结合实际应用场景,针对现有模型的不足之处,提出了改进方法,建立了新的模型。创新点主要体现在:首先,模型重点观察并收集用户与推荐系统交互产生的隐式反馈信息,从提高模型精度的角度出发,针对自适应更新中隐式反馈候选项溢出区影响力不平衡的问题,引入加权管理机制,提出了溢出区候选项影响力量化算法。其次,从实际应用角度出发,针对真实使用环境中不同用户对于推荐物品的多属性关注程度不同的现象,提出基于滑动窗口的用户多属性量化算法,预测用户在实际选择过程中的真实选择行为。实验分析表明,在真实的推荐场景下,基于自适应更新后的偏好向量生成的推荐列表排序表现有较大提升。3.研究了域因素对提升用户偏好预测的关键性作用,提出了基于矩阵分解框架的域感知偏好预测模型。在真实环境中,能够直接收集到的如评分数据这类直接表征用户偏好的显式反馈非常稀少,同时传统的基于用户-物品二维的偏好研究模型能够挖掘的信息有限。针对以上问题,论文将研究维度扩展至“域”中,重点关注域因素这类辅助信息(side information)对于用户偏好的影响。论文详细讨论并明确了域在用户偏好分析中的定义,解释了为什么要加入域因素来指导偏好预测。受已有方法启发,并针对其应用过程中的缺陷,论文提出了改进方法,建立了域感知偏好预测模型。主要创新点体现在:模型将域知识直接映射到矩阵分解框架的潜在空间进行学习,挖掘用户与域,用户与物品,物品与域三重潜在关系。该模型主要用于解决top-N推荐问题;实证数据分析表明,域感知模型在top-N推荐精度上较传统模型有明显提升。4.研究了地理社交网络特征,针对地理、社交等因素对于位置偏好预测精度的影响,提出了地理位置偏好预测模型。论文重点关注地理社交网络这一特殊应用场景,将用户的地理位置作为辅助信息(side information),对用户的地理位置偏好展开研究。为提高地理偏好的预测精度,本文分析了影响地理位置偏好的三个因素:内容因素、社交因素、距离因素,并对三个影响因素分别进行量化建模。主要创新点体现在:针对内容影响因素,本文提出了地理位置多标签提取方法,将用户-位置矩阵转换为用户-标签矩阵进行后续分析;针对社交影响因素,本文提出了好友之间兴趣相似性度量方法;针对距离影响因素,本文提出了基于距离衰减的影响力量化算法,模拟真实环境下所要被推荐的地理位置与用户之间的距离对于用户选择的影响。实验分析表明,提出的模型符合地理社交应用环境,能有效提升位置推荐效率。