论文部分内容阅读
社交网络在社会生活中扮演着越来越重要的角色,不仅满足了用户的社交需求,同时体现出了巨大的经济价值和社会效益。此外,由于社交网络本身的复杂性,近年来受到了广泛的研究,如研究社交网络的信息传播模型、用户增长模型、链接预测模型以及舆论演进过程等。本文对社交网络中用户行为的关联性进行研究,本文研究的用户行为是基于社交网站用户生成内容的,而不是传统的用户行为,如用户点击习惯、页面停留时间等。在研究过程中,提取出了3个关键的研究点进行深入研究,分别是:(1)用户关注的主题,即本文所关注的用户行为;(2)用户之间存在的社团结构;(3)用户行为之间的关联性。基于上述3个研究点抽象出了本文要研究的3个关键技术:主题提取、社团划分及关联规则挖掘。本文的主要工作如下:1.研究了主流的主题提取算法,提出了一种基于期望最大化算法的主题提取算法。该算法的核心是一个主题概率模型,首先,对文本进行预处理;然后进行建模,为各个候选主题定义主题概率模型;然后采用期望最大化算法对主题概率模型的参数进行估计,并得到候选主题的概率密度函数,根据概率密度函数提取得到文本的主题。实验结果表明,该算法对文本的主题提取效果较好。2.研究了经典的社团发现算法,提出了一种基于节点相似度的社团发现算法,还提出了模块相似度的概念来评价社团划分的质量。该算法借鉴了层次聚类的思想,不仅适用于复杂网络中社团划分,还可发现具有相似特征的节点构成的社团。首先,计算网络中的节点之间的相似度,并将各个节点初始化为一个社团;然后选择使模块相似度增量最大的社团进行合并,重新计算社团之间的相似度并选择社团进行合并,直到只有一个社团为止。实验表明,本算法的社团划分效果较好。3.研究了经典的关联规则挖掘算法,对于同一数据集,在相同参数的条件下,各种关联规则挖掘算法挖掘到的关联规则集合是相同的,区别在于算法的时间复杂度和空间复杂度。本文在研究挖掘社交网络用户行为之间的关联规则时,提出了一种基于社团划分的关联规则挖掘方法,该方法可以有效减少关联规则挖掘算法处理的数据规模。实验表明,该方法可以有效减少关联规则挖掘的时间消耗。