推荐系统中恶意反馈问题和多属性问题的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:dfhdgfhdgf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统不仅是多年来学术界的研究热点,而且已经成为当今网络应用中必不可缺的功能之一。推荐系统要解决的基本问题是如何在恰当的时候把恰当的信息用恰当的方法提供给恰当的人。围绕这个基本问题,不同的研究工作和实用系统都努力从多个角度提高推荐结果的满意度。然而,推荐系统中的恶意反馈问题和多属性问题一直影响着推荐系统给出更加满意的推荐结果。   恶意反馈问题指的是攻击者通过提供恶意反馈的方式来操纵系统推荐的内容。例如,在电子商务市场中,一个卖家串通一些用户给竞争对手差评同时给自己好评,从而实现打击对方抬高自己的目的。针对这一类问题,许多研究工作提出了引入信誉机制并限制攻击者资源的解决方案。但我们发现仅仅通过这两类方案是无法应对越来越成熟且复杂的攻击策略。具体来说,本文针对推荐系统中的恶意反馈问题做出了以下贡献:   (1)深入研究了恶意反馈问题,提出了一套理论模型对攻击行为进行建模,并在此基础上发现了一种新的更强有力的攻击策略。   (2)深入分析了新的攻击策略所暴露的系统的漏洞,进而设计了两套有效的防御机制来弥补这些漏洞。   多属性问题指的是推荐系统中要推荐给用户的物品往往具有多个属性,而用户在选择自己需要的物品时,会折中考虑这些属性。例如,在电子商务市场中,用户选择卖家的时候会综合考虑每个卖家的价格、信誉、邮递时间等属性。因此,推荐系统也要考虑属性折中的相关问题来给出更加满意的推荐结果。针对这类问题的传统方法是引入效用函数。它首先给不同的属性赋予不同的权重,然后通过加权求和的方法得到每个物品的综合得分,并依此进行推荐。然而通过深入的分析,我们发现这套方法在推荐用户最喜爱的一个物品时,会引入两个固有的缺陷:无法刻画用户的最爱和无法刻画物品间的竞争关系。于是在用户选择自己最喜爱的一个多属性物品的问题上,我们做出了如下工作:   (1)提出了角模型的概念对属性折中进行建模。   (2)提出了统治域的概念对物品竞争进行建模。   (3)提出了密度函数的概念对个性化喜好进行建模。   在这三个模块的基础上,我们提出了MAPS架构来计算一个用户选择一个多属性物品为其最爱的概率,并依此进行推荐。   MAPS架构解决的是一个用户选择一个最喜爱的物品的问题。与之相对应的是一个用户同时选择多个最喜爱的物品的问题。这类问题对应了电子商务系统中的批量购买行为。但是我们发现当前针对“一选一”来设计的推荐系统无法有效的满足这类“一选多”的问题。因此,我们提出了Rainbow架构,它通过引入多层Skyline的概念,逐层找到符合用户批量选择需求的物品集合。这套架构的提出进一步扩展了推荐系统的应用领域。   最后,我们与酷我公司合作,在实际系统中构建了通用推荐服务平台(RAAS:Recommendation As A Service),为上层不同的应用提供推荐服务。该平台需要具有安全性、准确性、简约性、多样性、高效性、自动性、通用性和扩展性的特点。我们已经实现并部署了第一版系统,在三十万用户四个月使用的基础上,我们证实了该系统的上述特点。我们将进一步在2011年5月10日通过酷我音乐盒和酷我电台为每天上千万的在线用户提供音乐和广告推荐服务。
其他文献
以微博、社交网络等为代表的Web2.0互联网应用的兴起及其处理数据量的爆炸性增长,对数据管理的灵活性、可扩展性、高性能的读写有了更高的要求。传统的关系数据库由于模式固定
随着企业信息化建设进程的推进,越来越多的企业需要集成各种不同的信息管理系统。在对企业信息管理系统进行集成时,主要会面对系统间的异构性、完整性、语义冲突和集成内容的
语音分离作为语音信号处理的重要研究方向,在语音识别、语音增强等方面都有着非常积极的意义。本论文在分析和总结以往研究工作的基础上,针对欠定语音分离的难点问题(传统算
反馈顶点集是给定图中的一个顶点子集,删除这个顶点子集让剩下的图成为森林。最小反馈顶点集问题是经典的NP完全问题之一,在实践中有广泛应用,包括操作系统中死锁预防和解除、信
分类问题是机器学习领域中的一个基本问题,对分类器的设计和改进等研究工作层出不穷并且日益出新。当前的分类算法主要以概率统计方法为理论工具,在模式识别、数据挖掘等领域
关键词是代表文章重要内容的一组词。对文本聚类、分类、自动摘要等起重要的作用。此外,它还能使人们便捷浏览和获取信息。现实中大量文本不包含关键词,自动提取关键词技术有也
无线射频识别技术(Radio Frequency Identification,RFID)是一种以空间电磁波为传输媒介进行非接触双向数据通信的数据自动采集技术。RFID技术具有广泛的应用前景,现已被应用
元数据是指用来标志、描述和定位电子资源的数据,也被称为数据的数据。它专门用来描述数据的特征和属性、提供某种资源有关信息的结构数据。有效的元数据组织可以让人们更方便
随着互联网技术的普及和发展及web2.0的日益盛行,网络上面越来越多的信息是由用户来提供的,同时人们也越来越多地从网络上获取有用的信息。在这种情况下,网络信息提供者对于读者
随着研究的日益加深,指纹图像识别技术的发展日趋完善,各项核心算法都有了深入的研究,取得了许多成果。但在指纹识别技术中,仍旧有很多问题值得探讨解决。随着指纹数据库中数据的