论文部分内容阅读
伴随互联网的高速发展,网络上的各种信息汇聚到一起,用户很难从大量的信息中搜索到所需的信息。搜索引擎能够根据用户输入的关键字进行搜索,减少用户查找时间。但是,搜索引擎技术对所有用户展示的搜索结果是相同的,为了满足不同用户独立的需求,减少用户查找的时间,各种个性化推荐系统纷纷被利用到互联网各大电商平台。现有的推荐算法存在很多局限性,例如:信息资源有限使得推荐质量不高,不能有效筛选出满足用户需求的物品。同时,现有的推荐算法随着用户和信息资源数量的增加,面临着很多的困难,例如:数据稀疏,冷启动,新项目推荐困难等。为了克服这些困难,本文融入用户的思维方式,结合社交网络和项目标签信息,对现有的推荐算法进行改进,提高推荐的个性化特征和准确性。首先,论文从社交网络朋友关系的角度出发,充分利用社交网络中用户间的关注关系,提出了基于用户信任关系重建和社交网络传递的推荐算法TRSP。 TRSP算法的主要研究如下:1)社交网络中直接给出了用户可以信任的朋友列表,但是网络上交友的简单便捷使得朋友关系中存在噪音而不能直接利用。为了解决噪音问题,提高信任关系的利用效率,本文对用户的社交网络朋友圈进行“去伪存真”操作。“去伪存真”将朋友圈内的“伪朋友”剔除出朋友圈。2)考虑到去伪存真操作带来的数据稀疏问题,本文从用户的历史信息中搜索到与用户兴趣爱好相似的用户作为“潜在朋友”来扩充朋友圈,最终构建可靠的用户社交网络信任关系。3)针对用户数量的增加给社交网络推荐带来了数据稀疏的压力这一问题,本文提出利用用户信任关系的传播特点,使用目标用户“朋友的朋友”作为数据的另一源头完成推荐,并在Epinions数据集实现并验证TRSP算法,试验表明重建后的社交网络信任关系在推荐上更加准确。其次,标签信息很好的反映了用户自身的习惯和兴趣爱好,根据用户的标签信息能够很好的挖掘用户背后的需求。本文充分利用社会标注信息,提出基于个性化时间标签云的大众分类法PTTC。PTTC算法主要的研究如下:1)从标注信息中提取用户的偏好标签云,代表用户的喜好;提取物品标签云描述物品的信息,找出最优的相似度衡量方法度量标签云间相似度完成推荐。2)用户的兴趣爱好不是静止的,不同的时间段内用户的兴趣偏好侧重点不同,考虑时间的影响,本文根据标签的时间戳信息抽取用户的时间段标签云。3)由于打标签的自由与随意,标签集合中存在很多含糊不清的或者重复冗余的信息,本文根据标签的使用情况对标签进行去除冗余;用户对不同物品的喜爱程度不相同,对一用户来说不同的物品间存在着差别,相应的同样的标签不同的物品,标签具有的价值之间也应该有差别。根据这一思想对用户的标签信息进行加权,提取加权的偏好标签云和加权时间标签云。4)为解决物品和用户数量的庞大带来的标签数据稀疏问题,本文将偏好标签云与时间标签云合理的进行组合,最大程度的利用社会标注信息完成推荐。虽然社交网络信息和和标签信息都能很好的辅助完成推荐,但是单一的推荐算法都存在着本身的缺陷。TRSP算法在为用户推荐物品时,根据朋友的建议来决定物品清单,推荐过程中没有考虑到物品本身的属性特征,不能根据用户的需求直观的进行物品选择;PTTC算法在为用户推荐物品时充分考虑物品的特征属性,利用标签信息匹配用户的需求完成推荐,在这一过程中没有充分考虑到当代用户喜爱社交的特性。为了克服单一算法的缺陷,同时发挥两种算法的优势,本文最后提出了基于用户思维方式的组合推荐算法UTMCR。对于不同的用户,选择物品时思维方式不同,选择物品的方法也不相同。UTMCR算法度量和定义用户的思维方式,根据用户的思维方式来切换推荐系统中使用的推荐算法。对于“借鉴”思维方式将采用TRSP算法为用户进行推荐,对于“搜索匹配”思维方式将采用PTTC算法为用户完成推荐。UTMCR利用切换算法的方法完成了组合推荐,论文在数据集Last.fm上从多个角度实现并验证了UTMCR算法带来的优势。