论文部分内容阅读
随着Internet的飞速发展,网络越来越渗透到人们日常生活当中,移动网络、社交网络、物联网以及微博等一些新型的网络产品,正在改变着人们传统的接受信息的方式。同时,网络数据量也呈现前所未有的爆炸式增长,人们已经进人了大数据时代,面对如此海量的数据,人们如何有效获取需要的信息便成为迫切需要解决的问题。因此,个性化服务技术越来越受到了广泛的重视。Web服务器日志文件中记录了用户的上网时间、焦点窗口运行的程序、页面访问等信息,通过对这些过程信息进行关联规则或决策树建模分析,可以客观的反应用户的软件使用和网页访问模式的偏好以及软件或网页内部之间的关联关系,对用户进行软件和网页推荐,还可以对具有相似行为的用户进行划分,通过聚类得到类群,从而有针对性的向具有某些相似属性的用户推荐合适的朋友。通过这些方法可以给一些站点或软件提供商在站点结构改进、软件个性化推荐、交友推荐以及电子商务中发现潜在客户提供决策参考。本文基于Web日志数据挖掘的个性化软件推荐和好友推荐的研究。论文首先阐述了研究的背景意义以及个性化服务研究现状和面临的问题;其次系统介绍了数据挖掘的概念、过程以及论文中所用到的数据挖掘算法,并在算法的理论基础之上提出了Apriori算法的改进方法;最后采用Spss Clementine数据挖掘工具对清理好的日志数据进行建模分析,得出了基于焦点窗口的浏览器市场占有率的结果,并建立了软件个性化推荐的关联规则和决策树模型,在最后提出了一种基于用户属性信息和软件使用偏好的好友推荐方案。论文创新点的主要体现在以下几个方面:(1)重点分析关联规则中Apriori算法,并针对当前Apriori算法在每次生成频繁集后,又重新扫描数据库来判断候选频繁项集是否为频繁项集的不足,提出了改进,通过引入质数分解法实现了生成频繁项集时只扫描一次数据库,提高算法的效率。(2)提出了基于用户焦点窗户的浏览器市场占有率分析的方法,真实的反应了用户使用浏览器的情况,并对5-7月份浏览器浏览器市场占有率变化进行分析对比。(3)在研究Web数据挖掘技术优势的基础上,采用Spass Clementine数据挖掘工具对清洗好的数据集进行建立模型,发现软件之间内在的关联模式并根据用户属性针对性的进行软件推荐,为360软件管家等软件的个性化推荐服务提供了理论基础。(4)针对现存推荐系统存在的不足,提出了基于用户属性和软件使用偏好对用户进行好友推荐的算法设计方案。该方案借助K-Means聚类算法和余弦相似度计算出用户包含属性相似和软件使用偏好相似的最终相似性,通过相似性可以实现具有相似行为和属性的好友推荐。