论文部分内容阅读
个性化推荐技术是解决信息化时代中信息过载问题的有效工具,它在作为一种独立工具帮助人们解决难题的同时,也可以与现有的一些技术如搜索引擎,分类目录等相结合,使它们提供的服务锦上添花常见的个性化推荐技术有基于内容的推荐,协同过滤推荐,混合推荐技术等,协同过滤技术则是其中应用最成功的一种方法它主要是基于用户或物体的社会属性特征,通过分析用户的历史行为产生个性化的推荐由于推荐过程仅需要考虑用户的历史行为,与物体的内容属性无关,实现非常简单,在电子商务,个性化阅读,搜索等领域得到了广泛地应用,因此对协同过滤算法的研究具有很好的商业价值但协同过滤算法在应用过程中也面临着许多问题,如算法的可扩展性,冷启动问题,推荐精度等,它也值得我们进行深入的研究目前学者在如何提高协同过滤算法推荐精度问题上的研究主要集中在相似性计算方法的改进来有效度量用户或物体间的兴趣一致程度,根据数据集的特性选择合适的惩罚因子来提高相似性的准确度,以及通过与其他推荐方式结合以提高推荐精度但是这些方法都忽略了协同过滤算法中近邻用户/近邻项目组的选择,由于最终的推荐都是基于近邻用户/近邻项目产生的,因此它们的质量也直接决定了推荐结果的精度,文中通过实验验证了这一点针对近邻用户/近邻项目组的选择策略,本文进行了详细的研究:首先,文中提出了两个近邻评估指标:近邻用户/项目组相似度和参考近邻比例,来度量近邻的质量通过实验找出了传统协同过滤算法计算过程存在的弊端其次,传统的协同过滤算法选择的近邻要么是相关性比较强,但并不能参与到预测的计算过程,要么就是能参与到预测的计算过程,但是近邻组与目标用户/项目的相关性又不高,导致选择的近邻对预测的计算并非都有正向的促进作用针对原来近邻选择的不足,本文提出了双重阈值的近邻查找方法,在考虑近邻相关度的同时还考虑了近邻参与计算的比例并且将此近邻查找方法分别应用在了基于用户和基于项目的协同过滤算法中,形成了DT-UBCF和DT-IBCF算法然后,基于双重阈值近邻查找法的思想,文中提出了抽样近邻查找策略,提高了基于用户的协同过滤算法应用在在线推荐中的推荐精度最后,在Movie lens数据集上验证了改进的协同过滤算法,实验结果表明DT-UBCF和DT-IBCF的推荐精度都比传统的UBCF和IBCF的推荐精度要高