论文部分内容阅读
随着互联网技术的发展和网络用户的普及,用户数量爆炸性地增长的同时社交网络的服务形态也在发生急剧的变化。这种情况下,用户想要快速获取感兴趣的信息或内容提供商想要进行有针对性的推荐,都需要通过有效的社交网络推荐技术。但是传统的推荐技术只考虑用户对项目的打分,项目本身的属性或者历史浏览记录,并没有考虑用户兴趣变化的规律,也不适应社交网络的新特性,如能获得的用户数据增多,用户兴趣多样化等。此外社交网络的数据集规模往往都是巨大的,这种情况下传统推荐技术的效率显得较为低下。针对以上问题,本文研究社交网络中基于机器学习的推荐方法,综合用户聚类,预测和推荐的相关技术,建立相应的推荐系统。该系统使用新浪微博的用户数据,经过预处理提取数据特征,然后使用基于Word2vec的聚类方法得到聚类结果,再进行马尔科夫链多兴趣预测,最后基于预测结果对用户进行推荐。该系统考虑到现实生活中用户兴趣变化具有可预测的规律性以及用户兴趣的多样性建立模型向用户提供兴趣推荐。实验结果表明该推荐系统具有良好的推荐性能。本文提出的社交网络中基于机器学习的推荐方法主要包括以下内容:(1)分析社交网络中的微博数据,进行基本的自然语言处理,包括使用NLPIR汉语分词系统进行分词,去除停用词,同义词替换等。考虑到用户发表的微博文本数据一般比较长,需要提取主要特征来进行进一步的处理。本系统使用Word2vec模型对数据进行处理得到对应的用户特征向量。(2)使用聚类算法将具有相似属性的用户聚成一类,并对用户进行多兴趣预测。本文提出基于Word2vec的聚类方法以实现聚类,该过程能够缩小搜索范围,提高效率,并使得用户定位更准确。然后考虑到用户兴趣的多样性,提出多马尔科夫链多兴趣预测模型,使用该模型能够根据用户特点预测用户的多项兴趣并以此建立用户的需求特征。(3)综合以上结果,本文在传统基于用户的协同过滤推荐算法基础上,综合考虑历史兴趣和预测兴趣两个因素,向用户推荐其感兴趣的关键字标签。该推荐系统考虑了用户多兴趣类别的属性,并使用了聚类和预测两种机器学习算法来改进推荐的性能,实验证明该方法具有良好的推荐表现。