论文部分内容阅读
在当前的电子商务平台上,存在着成千上万的各类分支的网店,对于每家网店来说,仅仅提供一种产品是远远不够的,至少需要陈列多种商品才能满足多种需求的多个消费者,为消费者提供更多的选择。推荐系统利用电子商务网站向客户提供商品和信息来帮助他们决定购买哪些商品,推荐信息一般位于网站的顶部,包括内容有消费者的访问统计数据,或者是通过分析消费者的过去购买行为来预测一个新的购买意愿。推荐的信息还包括针对消费者提供的个性商品、总结其他消费者的意见和评论。数据挖掘是针对大量的数据利用数学分析的方法得出数据中存在的模式和趋势,进而发现有益信息的过程。Web挖掘与数据挖掘密切相关,从大量数据发现知识过程无需人工干预。web挖掘知识的数据来源来自互联网。信息过滤系统使用web挖掘技术针对两种类型的网络数据:基于内容的过滤系统抽象知识来自web文档,而协同过滤系统使用网络用户的信息。为解决协同过滤中的可伸缩性和数据稀疏问题,本文提出的推荐系统解决方法是采用用户聚类技术和项目聚类技术相结合。用户聚类和项目聚类技术工作是识别具有类似评价的的用户组和项目。一旦创建集群,通过计算集群的平均意见可以预测目标用户评级。在某些聚类技术中用户会分散在多个聚类,聚类算法可以生成固定大小的分区,或基于一些相似性阈值会生成符合需求大小不同的分区数。预测的结果对整个聚类按照参与程度进行加权平均。结合用户聚类和项目聚类的协同过滤更具可伸缩性,比传统的方法更准确。本文设计的推荐系统首先收集用户和项目的相关信息,包括用户个人信息、用户浏览商品的历史信息、用户对商品所作出的文字评价和评级信息、电子商务商品的基本属性信息、商品交易记录信息和该商品所获得的文字评价和评级信息。对所收集的用户和项目信息做基本的数据预处理,然后利用用户聚类和项目聚类算法做协同过滤,对未评级商品做预测评级,并以网页的形式发送推荐信息给服务器,最终显示在用户浏览器上。系统测试是从所收集的数据集中选择近万条数据作为训练数据集,大约包括了近千名用户对大约2000本书的评级,并形成数据库中的数据表。对推荐系统预测行为设计的评测指标为准确率和平均覆盖率。经过数据表导入、数据预处理、参数设置、用户聚类、项目聚类、综合分析、推荐测试和结论验证多个步骤测试后,证明本文设计的电子商务推荐系统基本满足需要。为提高推荐系统的实用性,本文最后设计了图书推荐系统应用平台,应用平台设计为前台和后台两个部分,其中前台网站功能有用户登录注册、历史查询、在线推荐、商品评级、商品评论等。后台管理包括有推荐管理、用户管理、图书管理和购物车管理。其中的重点管理功能为推荐管理,其他三项管理功能为辅助设计。管理员每隔一段时间后,通过图书管理查看没有评级信息的图书,利用推荐管理功能,首先设置推荐算法,然后设置用户相似度阈值、项目相似度阈值等数值并对未评级图书作出推荐评级预测;数据管理是对所收集的图书和用户的相关数据进行预处理;推荐评级管理可以查看并管理由本文推荐系统对未评级图书所作出的预测评级。