论文部分内容阅读
随着网络的发展,网络不断地融入到人们的生活之中,网络与人的关系越来越密切。人们活跃于各种流行的社交网络之中,用户间形成的关系构成了一个大规模的用户关系网络;用户在社交网络之中不断的发表与自己生活、工作等相关的文章,文章之间的引用或者回复等关系形成了一个大规模的文档网络。 社区随着社交网络的发展而自然形成,不同的用户在不同的社区中影响力、活跃度都不相同,不同的社区所讨论、流行的话题也不尽相同。因此,从社区层次对社交网络内容进行分析,可以增加对网络中话题形成的理解、提高话题发现的准确性,更好的分析用户影响力的形成和社区层次的很多语义信息。同时,处于同一社区用户的兴趣、具体关注的事物也是不同的。所以,对社交网络内容从用户层次进行分析,才能更好的、更细粒度的分析每个用户的兴趣、用户的行为发生等用户层次语义信息。 因此本文在社区层次与用户层次上由宏观到微观不同角度分析挖掘社交网络的内容中有用的语义信息。本文同时考虑了用户发表的文本信息、文本中所包含的用户间关系。 在社区层次,如何根据用户关系图、文档图挖掘出用户形成社区、社区中用户的影响力以及各个社区热门的话题等社区层次语义信息,是一个重要的问题。在本文的工作,认为这几个问题是相互关联的,本文利用这些问题之间的关联性同时建模,相比于这几个问题单独分析,会取得更好的结果。本文提出了一个集成社区发现功能、话题分析功能和社区内用户影响力分析功能的基于LDA的概率模型,ACT(Author-Community-Topic)-LDA,利用变分推理学习参数,利用在线学习的方式应对大数据环境。本文利用社区中的话题概率分布建模社区划分的语义信息。在DBLP数据集、微博数据集上的实验取得了非常好的实验结果。本文设计和实现了ACT-LDA模型,将其应用到具体的项目工作之中以供在线使用。 在用户层次,本文对用户兴趣进行了建模。对于大规模的社交网络,用户的数量以及用户所关注的事物总量非常庞大,随着网络的增长不断增长,因此这种大数据环境下建模每个用户的兴趣、任何两个用户间兴趣相似度的代价是非常大的。本文提出了基于深度学习(deep learning)的用户兴趣模型,借鉴了最新的谷歌Word2Vec模型,可以准确且快速的学习出用户的兴趣,并且计算出用户间的兴趣相似度,得到用户最感兴趣的关键字以及与用户兴趣度最相似的用户集合。模型同样基于在线学习方式,适应于大数据环境。本文设计和实现了SN2Vec模型,DBLP数据集、微博数据集上的实验取得了很好的结果。未来将进一步整合到具体的项目工作中以实际在线使用。