论文部分内容阅读
随着计算机网络技术地快速发展,网络上的信息量与日俱增,用户往往会感觉不知所措,在大量的学习资料中找到自己的需求也越来越难,这也引起许多学者和专家们对这个网络问题的研究,个性化推荐系统便应运而生。协同过滤推荐技术是个性化推荐系统中最为成功的技术,它是利用用户对项目评分的数据,以用户之间或者项目之间相互协作的方式来产生推荐。由于信息不断膨胀,协同过滤推荐技术也存在很多问题,比如评分数据的稀疏性、精确性等问题,这也是因为学者只把眼光定在了用户显式评分部分,却忽略了用户浏览学习网站时的行为习惯,即一些隐式的信息,比如被访问网站的属性、用户访问的时长、用户访问次数、用户对页面的点击率等。本文主要针对数据的稀疏性和精确性问题展开了研究,具体内容包括:(1)为了提高用户之间的相似性,以增强推荐结果的精确度,本文提出了基于加权信息熵的相似性度量方法。该方法主要是把信息熵引入到协同过滤相似度量领域中,利用用户的访问网站时长作为隐式评分的依据,然后以用户的评分差平方和学习圈交集大小作为权重,再结合信息熵公式计算出用户之间的熵值,由于熵值取值范围为0到正无穷,所以本文利用高斯公式对其进行了归一化,把范围控制在0到1之间,这样可使结果集中,便于分析。(2)为了解决数据的稀疏性问题,本文提出了基于用户隐式特征的协同过滤算法。该算法首先从网络学习网站的日志文件中提取出用户访问网站的基本信息,并以网站的类型作为依据,对用户兴趣进行分类;在每一类中以用户的访问时长和访问次数作为隐式评分,并把隐式评分按照评分标准转化成对资源的显式评分,形成用户评分矩阵,这样就不用考虑用户未评分项目,也就不存在数据稀疏问题,然后再以相同的方式处理其他类别;最后基于加权信息熵的相似性度量方法计算出目标用户的最近邻,对未知项目进行预测评分,产生推荐。