论文部分内容阅读
社交媒体的快速发展吸引了大量用户,从而迅速成为企业和个人进行营销和推广活动的重要场所。在这些活动中,通过帐号的有组织协作行为,可以迅速产生相似信息的大量重复出现,从而提高信息的展示次数,影响普通用户。协作行为的发现与过滤对于垃圾信息清理、舆情分析、精准营销都具有重要作用。然而,由于社交媒体数据量大、数据更新迅速、协同行为相对密度低,社交媒体中准确、高效地协作行为发现具有重要的研究意义。本文研究了社交媒体中的协作行为和协作用户发现问题,主要贡献如下:1.对社交媒体中采用协作行为进行营销和推广的手段进行了分类,定义并描述了四种典型的协作行为用户,对它们的协作行为特征、用户特征、数据特征进行了分析,并分别设计了协作行为检测方法,为社交媒体协作行为发现与过滤确定了框架。2.提出了基于局部敏感哈希(Locality-sensitive Hashing, LSH)的社交媒体消息重复性检测方法,及其高效MapReduce实现,以发现协作行为用户所产生的大量近似重复性消息。这一方法所检测到的协作行为用户与其它用户具有明显不同的用户信息、社交网络结构,以及行为模式。实验结果表明,该方法能够有效定位隐式与显式营销帐号。3.利用帐号的转发特征,提出了基于主题模型的社交媒体协作行为和协作帐号组发现方法。该方法首先利用帐号与消息、帐号与帐号之间的关系,确定帐号的转发画像(retweet profile,RP),并利用LDA方法,发现具有相似行为特征的帐号组。接着,我们基于少量训练数据,利用标签传递方法,对协作行为帐号进行分类,从而确定协作账号组。实验结果表明,该方法能够有效发现水军与傀儡帐号小组。4.本文的研究基于200万微博帐号的5年消息,整理了包含1.8万协作帐号及其消息内容、行为记录的训练数据集。通过实验,验证了所提方法的有效性,并为后续相关研究,提供了扎实的数据资源。综上所述,本文从营销和推广行为检测应用需求、协作行为发现、协作帐号与帐号组的发现这三个方面开展了研究,在一个统一的框架下,提出了两种协作行为和帐号发现方法,并通过海量真实数据上的实验,验证了方法的有效性。