论文部分内容阅读
随着互联网、物联网、电子商务、人工智能、云计算、移动计算等众多领域的不断发展和成熟,无时不刻都会有新的信息、产品、资源产生,由此催生了大数据时代的来临。在这个时代中,信息过载已经成了各个领域亟需解决的核心问题之一,与推荐系统相关的技术已经成为了解决这个问题的一个有效的途径。事实上,更为广义的推荐系统技术已经应用于众多领域,包括网页排名、垃圾邮件过滤、在线约会等,因此推荐系统已经成为了信息检索、数据挖掘、社会网络分析等领域的核心技术之一。本文正是以此为切入点,对现有的推荐系统技术存在的不足进行了深入剖析,并提出了新颖有效的解决方案。特别地,本文使用多元信息和机器学习的方法来构造更全面的模型以此解决现有推荐系统的不足之处,其主要目的在于能够更为精确对用户偏好和物品特征进行表示。此外,为了满足推荐问题中所产生的新需求,本文设计了新型的推荐系统模型。在推荐系统中,少数流行的物品和少数活跃的用户占据了大量的数据,而其他物品和用户仅仅占有很少的数据,符合典型的长尾分布。长尾分布说明用户与物品普遍存在着异构性,而传统的基于独立同分布假设的推荐模型无法表示出这样的异构性,为此本文提出了基于潜在特征的贝叶斯异方差选择模型(BHCM)。首先,BHCM使用贝叶斯非参数方法来对用户和物品进行自动分组,并使用每个组特定的先验分布来产生差异化的特征。此外,BHCM还对传统选择模型中过强的非此即彼的二值假设进行了修正,提出了弱二值假设来建模选择和未选择。为此,本文设计了一个基于贝叶斯方法的异方差模型对每个选择或未选择赋予不同的方差来表示不同的置信度。长尾分布的特性给推荐系统带来了数据稀疏、冷启动、异构性、托攻击等诸多问题,尤其对尾部用户和尾部物品而言,这些问题显得更为严重。为了应对这些问题,本文提出了Co HMF模型,它由两个异方差矩阵分解模型C-HMF和R-HMF组成,其中C-HMF的方差模型用来建模每一个用户反馈的可信度;R-HMF的方差模型用来建模用户选择的物品的罕见度。Co HMF使用C-HMF所学习出的用户和物品特征作为R-HMF中用户和物品特征的经验先验,反过来R-HMF学出的用户特征也可以用做是C-HMF用户特征的经验先验,通过使用彼此的经验先验进行互相正则化,这样所学习出的潜在特征即能够更真实反映出物品的特点,又能够表示出用户对尾部物品偏好。互联网的发展使得新的应用层出不穷,对每个用户而言通常只对一些领域有足够多的经验,而对其他的领域缺乏经验,所以推荐系统更应该帮助用户在经验缺乏的领域进行选择。然而当前的推荐系统大都是建立在单一领域上,而在用户经验缺乏的领域上,意味着没有足够的用户反馈信息,所以容易遭受冷启动的问题。本文提出了非规则的跨领域张量分解模型(CDTF)用来建模用户、物品和领域组成的三元关系,其中CDTF允许每个领域拥有不同数量的物品,并且每个领域的物品有着自身独立的特征表示;通过每个领域自身的特征与跨领域的用户特征相结合,来形成领域特定的用户偏好的表示。此外,本文还提出了基于双线性多水平分析(BLMA)的跨领域潜在特征模型,它把对用户偏好特征的表示分解为了多个水平,包括领域水平、群体水平和个人水平,其中每个水平都有着对应的随机效应(潜在特征)。BLMA假设用户所提供的反馈是各个水平的效应综合作用产生的结果,因此当用户数据缺失时,也可以通过其他水平的潜在特征来近似用户偏好的特征。人类具有社会性,在日常生活存在着大量群体活动,因此产生了构建群体推荐系统的需求。进行群体推荐时,由于群体中各个成员之间的偏好存在着很大的差异,所以如何权衡每个成员偏好所产生的分歧,寻求使整个群体满意度最大化的推荐方案,是群体推荐系统所要解决的关键核心问题。当前的群体推荐系统大都基于整合模型,这样的模型直接构建在数据上,因此它们对数据的质量非常依赖。从本质上来说,这些方法没有能够很好地对群体偏好特征进行表示,而这是构建一个成功的群体推荐系统最为关键的因素。本文提出了一个基于深度学习技术的群体推荐模型,它能够表示出更为全面的高层次的群体偏好特征,以此来克服现有的浅层结构模型直接耦合于数据所带来的数据敏感性和脆弱性。对于上述所有模型,本文都使用了真实的数据集进行了全面的实验,通过和当前主流方法的对比,证明了本文所提出的模型能够更为有效地解决当前推荐系统中面临的挑战,并且能满足新的需求。