论文部分内容阅读
随着互联网的发展,社会化网络迅速流行,并在人们的日常生活中发挥着至关重要的作用,为信息传播、经验分享、生活交流等活动开拓了重要渠道。也因此,社会化网络中用户间的关系强度引起了研究者的高度重视。社会化网络在多个领域的重要作用逐渐凸显,如应用于好友推荐、商品推荐、链路预测等。就个性化服务推荐而言,社会化网络用户间的关系强度是进行推荐的重要依据。目标推荐用户的喜好往往跟与他有较强关系强度的用户更接近,而来自具有亲密关系的人的推荐也往往是更容易被接受的。因此,社会化网络中用户间关系强度的重要性不言而喻。但目前已有的关系强度计算方法考虑都较为片面,许多研究只是笼统地对社会化网络中用户间的关系强度进行计算,而未针对特定的情况进行研究,并且许多研究只针对社会化网络中用户间存在的直接关系进行研究,而忽略具有举足轻重的间接关系,因此计算结果的精确度有待提高。基于以上问题,本文提出了一种基于活动领域分类与间接关系融合的社会化网络用户关系强度计算模型,主要研究内容主要包括以下几个方面:第一,通过爬虫获取社会化网络中的相关数据,对数据进行预处理(包括中文分词、去停用词),转化为相应的文档数据集,去除垃圾数据,有助于计算结果准确性的提高。第二,对社会化网络中用户群的交互活动进行活动领域分类。用LDA算法对用户交互活动文档进行集群,利用标准化谷歌距离将结果集群与活动领域名称(工作、饮食、购物、旅游、运动、娱乐)进行相关度计算,确定每个结果集群所属的活动领域。之后再进一步通过相关度的计算判断每个交互活动文档所属的活动领域。结合活动领域分类对社会化网络中用户间的关系强度进行计算有助于该研究成果后续能更有针对性地应用于其他领域,如应用于个性化推荐时,可以分领域进行推荐,提高推荐的成功率。第三,直接关系强度计算中充分考虑多种影响因素。结合个体相似性、时间性、互动性对每个交互活动领域内用户间的直接关系强度进行计算,充分考虑了多方面的关系强度影响因素,有利于直接关系强度的准确计算。第四,融合间接关系于关系强度计算过程中。考虑到间接关系在社会化网络关系网中具有举足轻重的地位,在最终关系强度的计算中融合了间接关系,不仅解决了不存在直接关系而只存在间接关系的用户间关系强度无法计算的问题,而且提高了关系强度计算的准确性。第五,提出了衡量关系强度计算结果准确性的评价指标。分别与基于文档级别、集群级别、微博会话的活动领域分类方法比较,评价本文所提出的活动领域分类方法的效率。并根据准确率、召回率和标准衡量搜索引擎质量指标(NDCG)作为实验结果的评价指标,将本文所提出的关系强度计算方法分别与线性组合方法、通用框架模型方法比较,实验结果表明本文所提的基于活动领域分类与间接关系融合的社会化网络用户关系强度计算方法更优。