论文部分内容阅读
当前,互联网已经从浏览时代、搜索时代发展到了推荐时代,个性化推荐系统是推荐时代的主要特征。个性化推荐系统有助于解决目前用户所面临的“信息超载”问题。在以信息服务为主要业务的数字图书馆领域,推荐系统应用还比较简单,尤其是个性化的推荐服务功能还比较薄弱;同时,随着信息技术的飞速发展、用户信息需求质量的日益提高以及社交网站应用的突起,即使是在电子商务领域,推荐系统的一些固有问题仍然没有得到有效的解决,如数据稀疏性问题、冷启动问题、扩展性问题等都还需要进一步深入研究。
本文以基于协同过滤的推荐技术为研究主题,从协同过滤的数据源收集、信任推荐算法、新用户冷启动推荐三个方面进行深入研究和探讨,对一些关键技术提出了新的改进思路和算法,并通过实验验证了这些思路和算法的有效性。最后结合数字图书馆的环境特征,提出数字图书馆推荐系统的形式化定义、模型,并利用图书馆丰富的读者借阅数据,实现了一个基于协同过滤的OPAC图书推荐原型系统。
论文研究的主要成果和创新有:
(1)提出一种基于用户信息行为时间进行评分,扩充协同过滤数据源,缓解稀疏性问题的方法。指出可利用用户的多种信息行为(包括显式评分和隐式评分)从数据源上来扩充用户评分数据。以图书馆的OPAC读者借阅历史数据为例,对基于借阅时间评分建立用户兴趣度模型的假设条件、建模方法、评分矩阵转换、数据混合等进行详细探讨。模型将用户的借阅行为划分为不同的类型,每种类型的行为分别有不同的相对借阅时间计算方法,计算得到的用户-项目兴趣数据可作为推荐系统数据输入的有益补充,从而从数据源上缓解协同过滤面临的数据稀疏性问题,同时,模型也为其他具有时间因素的信息行为兴趣度建模提供参考。
(2)讨论了从用户评分中计算专家信任度的方法,提出基于专家优先信任和领域专家优先信任的协同过滤推荐算法。对专家信任的概念和模型、从用户评分中计算专家信任度的方法以及基于专家优先信任的推荐算法(EPT)作了详细阐述;同时,在Follow-the-leader模型的基础上,利用项目的分类属性将专家领域化,提出领域专家信任的概念以及基于领域专家优先信任的协同过滤推荐算法(EPT-D)。在实际数据集上的实验结果表明提出的推荐算法评分预测精度、预测成功率上要优于传统的KNN(K-最近邻)方法。
(3)提出将项目的关联性属性引入种子集策略的必要性,设计一种基于多属性综合筛选的种子集策略。种子集策略可用于启发新用户评分,缓解协同过滤推荐系统面临的新用户冷启动问题。
(4)参考电子商务推荐系统的概念,提出数字图书馆推荐系统(DL-RS)的形式化定义、模型,并实现一个基于协同过滤的OPAC图书推荐系统原型。