集成多元信息的推荐系统建模方法的研究

来源 :上海交通大学 | 被引量 : 10次 | 上传用户:ynsyxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、物联网、电子商务、人工智能、云计算、移动计算等众多领域的不断发展和成熟,无时不刻都会有新的信息、产品、资源产生,由此催生了大数据时代的来临。在这个时代中,信息过载已经成了各个领域亟需解决的核心问题之一,与推荐系统相关的技术已经成为了解决这个问题的一个有效的途径。事实上,更为广义的推荐系统技术已经应用于众多领域,包括网页排名、垃圾邮件过滤、在线约会等,因此推荐系统已经成为了信息检索、数据挖掘、社会网络分析等领域的核心技术之一。本文正是以此为切入点,对现有的推荐系统技术存在的不足进行了深入剖析,并提出了新颖有效的解决方案。特别地,本文使用多元信息和机器学习的方法来构造更全面的模型以此解决现有推荐系统的不足之处,其主要目的在于能够更为精确对用户偏好和物品特征进行表示。此外,为了满足推荐问题中所产生的新需求,本文设计了新型的推荐系统模型。在推荐系统中,少数流行的物品和少数活跃的用户占据了大量的数据,而其他物品和用户仅仅占有很少的数据,符合典型的长尾分布。长尾分布说明用户与物品普遍存在着异构性,而传统的基于独立同分布假设的推荐模型无法表示出这样的异构性,为此本文提出了基于潜在特征的贝叶斯异方差选择模型(BHCM)。首先,BHCM使用贝叶斯非参数方法来对用户和物品进行自动分组,并使用每个组特定的先验分布来产生差异化的特征。此外,BHCM还对传统选择模型中过强的非此即彼的二值假设进行了修正,提出了弱二值假设来建模选择和未选择。为此,本文设计了一个基于贝叶斯方法的异方差模型对每个选择或未选择赋予不同的方差来表示不同的置信度。长尾分布的特性给推荐系统带来了数据稀疏、冷启动、异构性、托攻击等诸多问题,尤其对尾部用户和尾部物品而言,这些问题显得更为严重。为了应对这些问题,本文提出了Co HMF模型,它由两个异方差矩阵分解模型C-HMF和R-HMF组成,其中C-HMF的方差模型用来建模每一个用户反馈的可信度;R-HMF的方差模型用来建模用户选择的物品的罕见度。Co HMF使用C-HMF所学习出的用户和物品特征作为R-HMF中用户和物品特征的经验先验,反过来R-HMF学出的用户特征也可以用做是C-HMF用户特征的经验先验,通过使用彼此的经验先验进行互相正则化,这样所学习出的潜在特征即能够更真实反映出物品的特点,又能够表示出用户对尾部物品偏好。互联网的发展使得新的应用层出不穷,对每个用户而言通常只对一些领域有足够多的经验,而对其他的领域缺乏经验,所以推荐系统更应该帮助用户在经验缺乏的领域进行选择。然而当前的推荐系统大都是建立在单一领域上,而在用户经验缺乏的领域上,意味着没有足够的用户反馈信息,所以容易遭受冷启动的问题。本文提出了非规则的跨领域张量分解模型(CDTF)用来建模用户、物品和领域组成的三元关系,其中CDTF允许每个领域拥有不同数量的物品,并且每个领域的物品有着自身独立的特征表示;通过每个领域自身的特征与跨领域的用户特征相结合,来形成领域特定的用户偏好的表示。此外,本文还提出了基于双线性多水平分析(BLMA)的跨领域潜在特征模型,它把对用户偏好特征的表示分解为了多个水平,包括领域水平、群体水平和个人水平,其中每个水平都有着对应的随机效应(潜在特征)。BLMA假设用户所提供的反馈是各个水平的效应综合作用产生的结果,因此当用户数据缺失时,也可以通过其他水平的潜在特征来近似用户偏好的特征。人类具有社会性,在日常生活存在着大量群体活动,因此产生了构建群体推荐系统的需求。进行群体推荐时,由于群体中各个成员之间的偏好存在着很大的差异,所以如何权衡每个成员偏好所产生的分歧,寻求使整个群体满意度最大化的推荐方案,是群体推荐系统所要解决的关键核心问题。当前的群体推荐系统大都基于整合模型,这样的模型直接构建在数据上,因此它们对数据的质量非常依赖。从本质上来说,这些方法没有能够很好地对群体偏好特征进行表示,而这是构建一个成功的群体推荐系统最为关键的因素。本文提出了一个基于深度学习技术的群体推荐模型,它能够表示出更为全面的高层次的群体偏好特征,以此来克服现有的浅层结构模型直接耦合于数据所带来的数据敏感性和脆弱性。对于上述所有模型,本文都使用了真实的数据集进行了全面的实验,通过和当前主流方法的对比,证明了本文所提出的模型能够更为有效地解决当前推荐系统中面临的挑战,并且能满足新的需求。
其他文献
大数据在为社会发展带来新机遇的同时,也引发了个人隐私安全的保护问题。因此,需要通过把保障大数据健康发展与保护个人隐私安全相结合、加强行业自律建设与健全行业标准相结
本文介绍了间歇式沥青混合料搅拌设备配料系统的组成、指标要求以及标定和校准方法,并举例说明校准数据的计算和分析方法.
<正> 国家教育部有关负责人指出:“要正确处理‘减负’与培养学生顽强意志,刻苦学习精神关系。‘减负’要学生获得更多主动发展、培养创新和实践能力的空间,培养学生刻苦钻研
镇水神物是指古人赋予神化观念、用来镇压水害的器物.古代镇水神物种类主要有犀牛和铁牛类、神兽类、神人类、兵器类、塔楼类等.古代遗留下来的镇水神物都是珍贵的水文化遗产
随着计算机科学、多媒体技术以及社交网络的迅速发展,图像、视频等多媒体内容的规模呈指数式爆炸增长,处理和理解这些多媒体内容的需求日益增强。相对于底层视觉特征层,人们
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
糖尿病是以高血糖为特征的代谢性疾病。高血糖则是由于胰岛素分泌缺陷或其生物作用受损,或两种都有引起。糖尿病患者长期存在的高血糖,导致各种组织,特别是眼、肾、心脏、血管、
众所周知,在项目工程建设过程中,工程造价审计尤为重要,且全过程审计方法逐渐应用于建设项目工程审计中,并得到了广泛推广和应用。全过程审计贯穿于整个项目工程建设过程中,致力于
慢性阻塞性肺疾病(COPD)患者普遍存在营养不良,发生率高达40%以上。营养不良是影响COPD预后的关键因素。常规治疗基础上给予营养支持治疗,可以改善COPD患者的营养状况、肺功能,提高
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield