基于异质信息的推荐系统研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zj770929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,信息正呈现爆炸式增长。为了解决信息过载,推荐系统应运而生。推荐系统是通过分析用户的兴趣特点和历史行为,主动地向用户推荐他可能感兴趣的信息。决定推荐系统效果的关键是如何正确建模用户的兴趣偏好。目前最为广泛使用的方法是基于协同过滤的推荐技术,它基于“相似的用户对相似的对象有相似的表现”这一假设,通过挖掘用户和对象之间的历史行为信息建模出用户的兴趣偏好,从而实现推荐。然而,传统的方法面临着数据稀疏的问题,即当用户和对象之间的历史交互信息非常稀疏时,传统的协同过滤技术很难从中有效地挖掘出用户的兴趣偏好。  另一方面,随着各种互联网应用的流行,我们能处理的数据也越来越多样化。例如,用户和商品的内容信息,用户之间好友关系,用户在网络中的多种行为,如购买行为、阅读行为、加入群组行为等。这些信息在形式上是多样的,属性上是异质的。如果能针对特定的推荐场景,高效并充分的挖掘和利用这些异质信息,将有效解决传统方法中数据稀疏的问题,从而提高推荐效果。  因此,本文的工作主要围绕基于异质信息的个性化推荐系统展开,针对不同的推荐场景,提出相应的有效融合异质信息的解决方案。本文研究的主要内容和贡献如下:  1.本文针对推荐问题中常见的隐式反馈数据(点击数据、购买数据、收藏数据等),提出了一种基于内容主题特征的加权单类协同过滤算法。该方法通过融合网络中丰富的内容信息来解决隐式反馈推荐时存在的单类问题。具体而言,该方法为每个用户和对象提取出内容主题特征,用以帮助从缺失数据中区分出潜在的负样本。并且在传统矩阵分解模型的基础上融入了基于内容相似性的加权机制,通过内容信息提供的先验来辅助挖掘用户的隐式反馈数据。真实数据集上的实验表明,我们的方法能将网络中丰富的内容信息融入到隐式反馈推荐场景中,帮助解决该场景下负样本缺失带来的困难。  2.本文针对融入社交关系的推荐场景,提出了一种基于社交影响分析的推荐方法,它通过挖掘用户的亲密好友(对用户行为有强影响力的好友)和易感性强度(用户接受好友影响的意愿程度),将网络中用户之间的社交关系有效地融入到推荐当中。为了挖掘每个用户的亲密好友和易感性强度,该方法构造了一个统一的因子图模型(factor graph model)来捕获影响社交关系分析的多个要素,同时提出了社交影响力传播(SocialInfluence Propagation,SIP)算法:通过在社交关系网络中传递两种跟影响力强度相关的信息来学习该模型。最后,在亲密好友和易感性强度的指导下,该方法同时考虑了长期和短期的社交关系影响来提高推荐的准确性。实验表明,我们的方法能将用户之间的社交关系更有效地融入到推荐中,帮助解决数据稀疏的问题。  3.本文针对融入用户多种行为的推荐场景,提出两种基于用户多种行为分析的推荐方法,通过同时建模用户在不同行为之间的相关性和异质性,实现行为之间信息的有效迁移,从而有效融合用户的多种行为信息进行推荐。它们是基于类别分组的潜在因子模型和基于组稀疏的矩阵分解模型。前者将用户各种行为下的评分矩阵分解到共享和独立的两个子空间,建模用户在不同行为下共享的和异质的兴趣爱好,有效地融合用户的多种行为信息进行推荐,它要求不同行为之间共享的因子相同。后者通过组稀疏的约束,自动地学习出不同种类行为下影响用户决定的潜在因素,从而自动地建模不同行为之间的共享信息和异质信息,它允许每两种不同行为之间共享的因子不同。真实数据上的实验表明了我们的方法在融合用户多种行为进行推荐时的有效性。
其他文献
许多应用中都要识别用户的合法身份,传统的的方法采用密码或者IC卡等来达到这个目的。但密码和卡片容易被遗忘或者丢失,而且容易被非法用户伪造,所以传统方法已不能满足在信息化
随着校园网的逐步建设完善,各种基于网络的应用广泛的应用于校园的教学管理中.各种应用系统独立认证的弊端使校园网络使用的集中管理难以实现,因此,建立一个统一认证系统,对网络用
C4ISR系统在现代国防中具有重要的地位和作用,研究C4ISR系统的设计与开发具有重要的意义。仿真是研究C4ISR系统的一种重要手段,通过对C4ISR系统进行体系结构的分析和仿真,有助于
语义Web是当今最热门的话题之一,实现语义WEB的知识推理则是人们关注的重点。Prolog语言以其在逻辑推理和证明方面独特的功能和作用,以其基于面向对象的技术和一阶谓词的逻辑型
学位
近年来,由于经济的全球化、竞争的动态化和技术的快速更新,高度动荡环境下的项目决策具有较高的不确定性和复杂性。在这种情况下的项目投资的风险分析与决策,包括项目投资前
随着互联网的发展与普及,Web资源成为人们获取信息的重要来源,而且相当多的资源只有通过互联网才能获得(例如未发表的论文、研究报告等)。但是随着web资源的急剧增加,如何充分利用
社会信息网络是基于交互式社会媒体平台建立起来的一种新型网络,其以虚拟化互动的交流模式极大地推动了用户参与网络的广度与深度,是人类社会活动在网络空间的虚拟映射。研究和
网络化远程教育最突出的特点就是信息资源丰富,这些资源不仅在内容上多种多样,在表现形式上更是丰富多彩。它对教育领域的冲击与渗透使得出现了新型的网络教学支撑平台,如:基于资
该文首先较系统地分析了自然免疫学的基本原理和特征,讨论免疫的几个动力学方程;介绍了人工免疫学的基本原理、特征以及它们的理论基础,并从集合论的观点对人工免疫学进行了
统一的用户管理是信息化建设中基础架构的重要部分。随着LDAP(Lightweight Directory Access Protocol,轻量级目录服务协议)技术的兴起和应用领域的不断发展,目录服务技术成为
学位