论文部分内容阅读
随着互联网高速发展,各类信息渠道相互贯通,数据量呈指数式激增。以电子商务领域为例,商品条目以亿万计,用户的时间被大量地耗费在检索和筛选上。过量的信息远超出用户处理范围,从而造成信息负担;所以如何缓解信息过载问题是目前研究的一个热点。协同过滤算法是目前研究最深入、应用最成熟的一种推荐技术,是应对信息过载问题的高效手段。相似性度量是包括协同过滤在内的推荐算法的核心环节,极大地关系到推荐结果的精准度和算法的综合性能。而先前的很多相似性度量方法普遍受制于以下问题:一是典型的相似性度量方法仅利用共同评分项,数据利用率低,在数据高度稀疏环境下表现较差。二是仅依靠评分数据计算相似性,未考虑其他方面信息,容易造成误判。三是用户的评分行为带有习惯等因素,评分不能直接与满意度等同。本文针对上述问题提出了如下策略,主要包括:
第一,设计适应稀疏数据的项目相似性度量方法。随着稀疏性的增大,愈难发现共同评分项,此时以共同评分为计算基础的相似性度量方法效率明显下降。本文引入生物信息科学领域的离散增量,依此构造了相异系数,提出了一种基于相异系数的项目相似性计算的方法,利用项目所有评分值的频数分布来计算相似性,摆脱了共同评分限制,有效缓解了数据稀疏性的影响。
第二,构造多维度度量的项目相似性模型。典型的协同过滤算法只依靠评分值计算项目相似性,维度单一,度量的全面性不足,容易误将评分上相近但实际相差很大的项目判定成相似的。为减少误判、提高推荐精度,本文首先结合改进的Jensen-Shannon(JS)散度,将绝对数量因素纳入相似性度量中;接着,引入属性标签,依据标签计算项目在属性上的相似度;最终,提出融合分值密度、评分数量、项目属性的多维相似性模型。
第三,构建能反映用户真实满意度的偏好模型。用户的评分行为带有主观性、习惯性,评分值不能直接等同于用户的实际满意度。针对此问题,本文基于波达评分理论构造了评分值转换为偏好的规则,接着加入用户习惯、评分倾向等因素对规则进行修正,得到最终的偏好模型。实验表明,现有的一些推荐算法使用本文模型转换后的数据进行计算,所得结果误差更小。
第四,提出混合推荐方法。利用偏好模型获得偏好数据,作为聚类算法的输入,产生用户的最近邻居集;结合多维的项目相似度算法,产生项目的最近邻居集;最后,设计出混合利用两个邻居集进行预测和推荐的策略。
本文提出的方法增强了对抗稀疏问题的能力、提高了推荐的质量,有较大的应用潜力。
第一,设计适应稀疏数据的项目相似性度量方法。随着稀疏性的增大,愈难发现共同评分项,此时以共同评分为计算基础的相似性度量方法效率明显下降。本文引入生物信息科学领域的离散增量,依此构造了相异系数,提出了一种基于相异系数的项目相似性计算的方法,利用项目所有评分值的频数分布来计算相似性,摆脱了共同评分限制,有效缓解了数据稀疏性的影响。
第二,构造多维度度量的项目相似性模型。典型的协同过滤算法只依靠评分值计算项目相似性,维度单一,度量的全面性不足,容易误将评分上相近但实际相差很大的项目判定成相似的。为减少误判、提高推荐精度,本文首先结合改进的Jensen-Shannon(JS)散度,将绝对数量因素纳入相似性度量中;接着,引入属性标签,依据标签计算项目在属性上的相似度;最终,提出融合分值密度、评分数量、项目属性的多维相似性模型。
第三,构建能反映用户真实满意度的偏好模型。用户的评分行为带有主观性、习惯性,评分值不能直接等同于用户的实际满意度。针对此问题,本文基于波达评分理论构造了评分值转换为偏好的规则,接着加入用户习惯、评分倾向等因素对规则进行修正,得到最终的偏好模型。实验表明,现有的一些推荐算法使用本文模型转换后的数据进行计算,所得结果误差更小。
第四,提出混合推荐方法。利用偏好模型获得偏好数据,作为聚类算法的输入,产生用户的最近邻居集;结合多维的项目相似度算法,产生项目的最近邻居集;最后,设计出混合利用两个邻居集进行预测和推荐的策略。
本文提出的方法增强了对抗稀疏问题的能力、提高了推荐的质量,有较大的应用潜力。