论文部分内容阅读
随着网络通讯技术的发展,电子社交网络如Facebook,Twitter等,已成为人们日常生活中不可分割的社交渠道。为丰富用户的web社区生活,各社交网站推出了“社区推荐”及“好友圈”服务。由此而生的社区划分及社区推荐算法,已成为社会网络数据挖掘研究的热点。近年来,由于文本信息成为社会活动的主要传播载体,因此面向文本语义信息分析的社区挖掘,成为传统社区挖掘研究领域的新方向。本文的主要研究内容为语义社区发现,其研究目标是通过对社会网络中节点的语义分析及拓扑相关性分析,挖掘语义与拓扑关系紧密的社区结构,并在语义社区发现的基础上保障社区的可重叠性。为此,本文的研究工作分别从以下4个方面进行开展:多元相关性研究、场势相关性研究、局部区域相关性研究及传播动力学研究。针对一般社会网络社区发现算法仅考虑各节点的邻接关系,所划分的社区仅为一元关系社区不能代表社区成员的语义相似性且无法处理具有多元语义话题的语义社会网络社区发现问题,提出基于话题因子分析的语义社会网络社区发现算法FA-SA(Factor Analysis$Simulated Annealing)。该算法将节点的多元信息抽象为话题,先以多元话题综合因子作为节点话题信息度量,以节点间的话题密度差异作为节点聚合方向,构建初始社区结构;再以最大化社区内部话题信息相似度和最小化社区外部话题信息相似度为目标建立语义社区发现的目标函数及节点变动的代价函数;再以初始社区结构和代价函数作为初始解和判断准则,以节点变动的代价函数值为参数,建立全局优化的模拟退火策略优化语义社区结构,实现多元语义社会网络的语义社区发现。针对场势相关性问题,提出基于语义数据场的语义重叠社区发现算法SFR(Semantic Field Randwalk),该算法首先以LDA(Latent Dirichlet Allocation)模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;其次,利用节点间语义坐标及链接关系,建立节点的语义数据场模型;再次,以语义关系强度及语义势能为参数,提出一种改进的语义社会网络重叠社区发现的随机游走策略。针对局部区域相关性问题,提出基于局部语义聚类的语义社会网络重叠社区发现算法,该算法首先以LDA模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;其次,以节点间语义坐标的相对熵(KL散度)作为节点语义相似度的度量,建立节点相似度矩阵;再次,根据社会网络的局部小世界特性,提出语义社会网络的局部社区结构S-fitness模型,并根据S-fitness模型建立了局部语义聚类算法LSC(Local Semantic Clustering)。针对传播动力学问题,提出标签传播的语义重叠社区发现算法,该算法首先以LDA模型为语义信息模型,利用Gibbs取样法建立节点语义信息到语义空间的量化映射;其次,提出可度量节点间相似性的主成分SCNP(Semantic Coherent Neighborhood Propinquity)模型,以及语义影响力模型SI(Semantic Impact);再次,以SCNP作为标签传播的权重,以SI作为截断阈值的参数,提出一种改进的Semantic-LPA(Semantic Label Propagation Algorithm)算法。针对LDA取样在网络拓扑结构的优化求解问题,提出一种面向语义重叠社区发现的block场采样算法,该算法首先以LDA模型为语义信息模型,建立了以取样节点为核心节点的block场BAT(Block-Author-Topic)语义取样模型;其次,根据节点的语义分析结果,建立可度量block区域的语义凝聚力方法,实现了语义信息的可度量化;最后,以节点的语义凝聚力为输入,改进了重叠社区发现的标签传播算法。