论文部分内容阅读
随着Internet的快速发展与移动智能设备的广泛普及,万维网正从用户被动消费内容的传统媒体向用户主动创建和分享内容的社会化媒体转变。这种转变极大地方便了信息的创建和分享,但也引发了严重的信息过载问题,给用户获得有效信息带来了极大的挑战。鉴于社会化媒体中诸如信息的时效性、信息需求的个性化、以及信息消费的盲目性等新特点,传统的基于搜索的信息过滤技术已经难以应对其信息过载问题。区别于搜索技术,推荐技术试图从多种社会化媒体数据(例如用户关系、用户反馈、用户生成内容等)中自动分析用户潜在的个性化的需求,因而更适合应对社会化媒体的信息过载问题。然而,现有推荐技术在如何综合利用社会化媒体上的多种数据、如何处理复杂的用户关系、如何处理隐式的用户反馈、如何应对用户生成内容的时效性等问题上都面临着挑战。针对这些挑战,本文首先提出了一个面向社会化媒体的用户生成内容推荐框架,然后分别重点研究了此框架中关于用户关系、用户反馈与用户生成内容的三项关键技术,最后在此基础上设计与实现了一个面向社会化媒体的用户生成内容推荐平台,并基于此平台实现了一个新浪微博推荐的应用示例。具体而言,本文的主要工作如下:1.提出了一个面向社会化媒体的用户生成内容推荐框架。在具体分析社会化媒体用户生成内容推荐问题的需求特点的基础上,该框架以松耦合的方式处理多种社会化媒体数据,包括用户关系、用户反馈与用户生成内容,具有较强的灵活性。2.提出了一种基于社会学理论的用户关系推理技术。该技术基于多种社会学理论刻画复杂的用户关系,并据此从社会化媒体上已知的用户关系中推理出有价值的未知的用户关系。在多个真实数据集上的实验结果显示,该技术在推理准确性上显著地超过了已有的基准方法,并且在效率上能够达到线性的训练时间和常数级的应答时间。3.提出了一种利用外在关系的单类用户反馈推理技术。鉴于社会化媒体上的用户反馈大多以隐式反馈的形式存在,该技术提出了专门的应对措施,并试图根据已有的隐式用户反馈捕捉用户需求,推理出未知的用户反馈。另外,该技术还利用了包括用户关系在内的外在关系以更准确地捕捉用户需求。在多个真实数据集上的实验结果表明,该技术在推理准确性上显著优于已有的基准方法,在效率上也有着线性的训练时间和常数级的应答时间。4.提出了一种基于内容的用户偏好预测技术。为应对用户生成内容的时效性,该技术提出了一种动态的增量式偏好预测方法将快速且源源不断产生的用户生成内容推荐给用户。另外,该技术还包含多个变种,能够分别进行线性与非线性建模并利用用户生成内容之间的关联性。在多个数据集上的实验结果显示,该用户偏好预测技术在准确性和效率上均有较好的效果,并且在准确性和效率的权衡之间提供了多种选择。5.设计并初步实现了面向社会化媒体的用户生成内容推荐平台,并基于此平台给出了一个新浪微博推荐的应用示例。该推荐平台及其微博应用初步验证了上述技术的可行性。