论文部分内容阅读
在社交网络中,用户可以通过两种方式表现自己的兴趣爱好。第一种方式是在个人主页显式填写感兴趣的项目,第二种方式是通过发布和关注的内容间接地表达兴趣爱好。理解这两种方式,采集相应的网络数据,研究人员可以获取并分析目标用户的兴趣爱好信息,有效地支持对个体用户的行为认知、心理分析和个性分析。此外,探究群体用户的兴趣关注点,可以为广告投放、群体分类、舆情分析等多种研究提供理论和数据支持,产生更多的商业机遇和社会活动机会。本文面向多个社交网络数据源的用户兴趣数据,主要研究了如下内容:(1)本文采集了上万名Linked In(领英)社交平台的会员档案信息,收集了这些用户在主页填写的兴趣爱好信息,通过分词、同义词聚类等处理步骤,提炼出高频兴趣爱好词集。本文分别设计了兴趣爱好关联分析模型和兴趣爱好聚类分析模型,提出了一种基于二项集支持度的AGNES(Agglomerative Nesting)聚类改进算法,实证研究了兴趣爱好的关联特征与聚类特征。在研究过程中,本文利用用户的真实兴趣爱好数据集生成了多组强关联规则集合与兴趣爱好聚簇。(2)本文针对有确信Twitter(推特)账户的Linked In用户群体,采集了两个平台大量的社交网络用户兴趣数据。对于真实的抓取数据集和跨社交平台的应用场景,本文探究了如何改善传统基于关联规则的推荐算法,并提出了两类基于兴趣爱好聚类特征的混合推荐算法,有效改善了数据集和应用场景中遇到的数据稀疏性问题。(3)本文设计并实现了一个多源社交网络用户兴趣数据的采集与分析系统。将前述两部分研究内容应用于其中,提供了跨社交网络平台用户兴趣数据的采集、分析与推荐预测功能,并可以将结果应用在目标用户的属性分析之中。本文的研究成果可以佐证人类的兴趣爱好之间的确存在着大量的关联关系与固有的内在聚类特征,补充了兴趣爱好的多领域研究。本文提出的多种研究方法,能够应用于对社交网络用户潜在兴趣爱好的挖掘,还可以有效改善实际场景中的数据稀疏性问题。研究方法也为采集多源社交网络数据、分析社交网络用户以及个性化推荐提供了思路。