论文部分内容阅读
互联网的发展使得人们获取信息的方式和途径发生了巨大转变。一方面,互联网上信息呈指数级的增长态势,搜索引擎技术的不断发展以及信息获取的门槛不断降低为人们寻找信息提供的极大的便利。另一方面,对于任何一个用户来说,借助于搜索引擎技术从规模巨大、纷繁复杂的信息环境中,通过"一键式"操作找到自己急需的信息也不是一件容易的事情。尤其是当人们对所要寻找的信息不能提供很好的属性描述的情况下,也就是说搜索引擎技术不能很好地发挥作用的时候,要想找到自己心仪的目标,堪比"大海捞针"。如何从大量信息中挑选出针对特定用户有用的信息并且有效地过滤掉其它冗余信息,成为互联网技术研究的热点及难点。针对这种情况,人们开始了对推荐系统理论及技术的探索与研究。推荐系统旨在帮助用户筛选出对其有参考价值的信息,过滤掉大量无用的信息,从而实现信息的定向推送。当有很多种可替代品可供用户选择的时候,推荐系统会帮助用户选择最适合他们的产品。推荐算法是推荐系统的核心模块,用来完成推荐系统的主要工作流程。其中,基于聚类的协同过滤推荐算法以其优越的算法性能、较高的推荐准确率而著称,从而被应用到当前较多的电商及门户网站。本文针对基于聚类的协同过滤推荐算法进行系统研究,根据现有聚类算法在推荐系统中的表现性能及其优缺点的分析,对聚类过程提出优化和改进的方案。并将新的聚类过程植入推荐系统的推荐流程中,从而获得更优越、更准确的推荐结果。半监督的PSO聚类算法使用了一个手动制定的参数β来平衡无人监督PSO聚类算法和标准的PSO聚类算法的优点和缺点。由于参数β的选取对聚类结果的精确性有影响,故本文提出一种自适应参数的算法以改进参数β的选取过程。本文将PSO算法与半监督学习方法相结合,对基于PSO的自适应优化的半监督学习参数选取方法进行研究,提出了一种基于参数自适应优化的半监督PSO聚类算法(APO_SSPSO)。该算法的基本思想是通过优化半监督学习PSO聚类中标记样本和非标记样本的分布比例参数以得到其最优参数值,提高半监督学习PSO算法样本分布比例参数选取自适应学习能力,从而改善半监督学习聚类效果并在一定程度上提升推荐结果的准确性。本文使用APO_SSPSO聚类算法,得到一个聚类误差相对较低的用户分组情况。聚类结果的各个簇中,同一簇内的用户具有较高的相似性,不同簇之间的用户具有较低的相似性。从而使后面推荐公式选取最近邻居的过程有了更优化的结果。与此同时,使用PSO算法继续优化局部邻居与全局邻居在推荐公式中的使用比例,可以更进一步得到准确率和召回率更高的推荐结果。本文选取两组不同实验样本数据,将本文提出的APO_SSPSO User-CF算法与传统的User-CF推荐算法的推荐结果进行对比。通过对比实验证明本文算法在改善推荐算法准确率和召回率方面的有效性。