论文部分内容阅读
随着社交网络用户的迅速增长,基于深度学习技术的网络表示学习算法逐渐成为近年来的研究热点。然而,现有算法许多是从结构方面考虑基本的社交关系,而结合语义考虑较高阶的间接连接关系可以更有效的捕捉网络结构。本文对基于主题关注网络的表示学习进行研究,具体研究内容如下。
首先,针对现有基于随机游走的网络表示学习建立社交关系时仅考虑基本连接关系,忽略结合语义信息的较高阶间接连接关系等问题,结合主题关注网络中用户间的社交关系和用户对主题的偏好两个方面,利用集对分析理论的同异反(确定与不确定)及二元联系数的思想,给出基于二元联系数的转移概率模型。
其次,为了实现基于随机游走的主题关注网络表示学习,需要为主题关注网络中用户和主题两类节点设计合理的随机游走策略;为了得到高质量的游走序列,结合基于二元联系数的转移概率模型,提出基于该网络的随机游走算法(Topic-Attention Network Walk,TANW);为了训练游走序列得到网络的向量表示,提出了基于二元联系数的主题关注网络表示学习算法(Topic-Attention Network Embedding Based On Binary Connection Numbers,BCN_TANE)。
再次,为了进一步考虑较高阶节点间的连接关系及有效权衡节点间不确定性关系变化趋势等方面的局限性,基于主题关注网络的特点,通过对二元联系数扩展为多元联系数,给出基于多元联系数的转移概率模型。在该模型中,通过对用户、主题节点间的直接和间接连接关系建模,全面、详细地描述了节点间的联系。同理,将该模型运用到TANW算法中,提出基于多元联系数的主题关注网络表示学习算法(Topic-Attention Network Embedding Based On Multiple Elements Connection Numbers,MECN_TANE)。
最后,在Karate数据集上,通过与经典的DeepWalk算法对比,验证BCN_TANE算法的正确性和合理性;在豆瓣数据集上,利用K-Means++聚类算法进行社区发现,验证BCN_TANE算法的有效性;在以上两个数据集上,利用模糊C-均值聚类算法进行重叠社区发现,验证MECN_TANE算法的合理性及有效性。
首先,针对现有基于随机游走的网络表示学习建立社交关系时仅考虑基本连接关系,忽略结合语义信息的较高阶间接连接关系等问题,结合主题关注网络中用户间的社交关系和用户对主题的偏好两个方面,利用集对分析理论的同异反(确定与不确定)及二元联系数的思想,给出基于二元联系数的转移概率模型。
其次,为了实现基于随机游走的主题关注网络表示学习,需要为主题关注网络中用户和主题两类节点设计合理的随机游走策略;为了得到高质量的游走序列,结合基于二元联系数的转移概率模型,提出基于该网络的随机游走算法(Topic-Attention Network Walk,TANW);为了训练游走序列得到网络的向量表示,提出了基于二元联系数的主题关注网络表示学习算法(Topic-Attention Network Embedding Based On Binary Connection Numbers,BCN_TANE)。
再次,为了进一步考虑较高阶节点间的连接关系及有效权衡节点间不确定性关系变化趋势等方面的局限性,基于主题关注网络的特点,通过对二元联系数扩展为多元联系数,给出基于多元联系数的转移概率模型。在该模型中,通过对用户、主题节点间的直接和间接连接关系建模,全面、详细地描述了节点间的联系。同理,将该模型运用到TANW算法中,提出基于多元联系数的主题关注网络表示学习算法(Topic-Attention Network Embedding Based On Multiple Elements Connection Numbers,MECN_TANE)。
最后,在Karate数据集上,通过与经典的DeepWalk算法对比,验证BCN_TANE算法的正确性和合理性;在豆瓣数据集上,利用K-Means++聚类算法进行社区发现,验证BCN_TANE算法的有效性;在以上两个数据集上,利用模糊C-均值聚类算法进行重叠社区发现,验证MECN_TANE算法的合理性及有效性。