论文部分内容阅读
随着互联网的高速发展,信息呈爆炸式地增长,大数据在飞速的发展中,数据挖掘是一个充满活力的研究领域,商业利益的强大驱动力将会不断地促进它的发展,个性化推荐就属于大数据时代数据挖掘应用在互联网方面的重要技术。面对海量数据,推荐系统的产生能实现信息消费者和生产者的双赢。协同过滤算法是个性化推荐中最成功和应用最广泛的算法之一,但它依赖于用户的历史评分数据,所以存在冷启动,数据的稀疏性等问题。大数据新形势下,包括个性化推荐在内的各种数据挖掘算法给统计学带来了机遇和挑战,一方面,数据挖掘的各种算法很多思想都来自于统计学;另一方面,数据挖掘面对统计学表现出了强大的生机。据此,本文探究在数据量比较大的情况下,将统计分析应用到个性化推荐算法中的效果,同时也应用数据挖掘的其他模型,如关联法则,聚类等方法改进模型。本文提出了基于统计学的个性化推荐,主要是利用MATLAB, SAS进行辅助编程,分别实现了描述性统计、多维关联法则、协同过滤的算法进行推荐。对协同过滤模型存在的缺点的改进,针对模型的数据稀缺性和冷启动问题,结合用户的评分和特征信息,提出用一维和二维的统计量改进数据的稀疏度问题,然后利用SQL SERVER2005和EXCEL数据挖掘外接模块对用户建立聚类模型,基于各类的统计分析改进模型,聚类模型不仅能解决数据的稀缺性,而且能克服冷启动问题;最后通过奇异值分解方法改进算法,并由平均绝对误差来衡量各种改进效果。通过对比本文得出结论:根据用户的评分和特征进行统计分析,用分析结果改进协同过滤算法有比较好的效果,结合统计学,数据挖掘的模型对于冷启动问题有较大的改善。本文的实验可以说明统计学的思想在各种复杂的模型中都能得到体现,在未来大数据发展的路上,统计学既要保持其最基础的生命力,同时要加强在其他学科的应用,推进统计方法制度改革,扩展统计学研究具体科学的深度和广度。