基于社团发现的微博群体划分与特征提取

被引量 : 0次 | 上传用户:qiaomy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网技术蓬勃发展的今天,微博是一个全民织网的社会化信息平台。微博个性化服务的关键是将微博用户划分成具有共同特征的群体。如何进行微博用户群体划分?针对这个问题,本文提出了微博用户的上下层模型和用户相似性模型,从模型中提取有价值的特征,在此基础上提出微博群体划分的方法。首先,本文结合统计数据论证了微博属于社会化信息网络、微博的结构符合幂律分布,并基于微博信息的有向性提出了不同于关系网络的抽象上下层模型。由于微博网络的幂律性,研究上层网络的用户可以带来更大的效益,我们选取PageRank值最高的前10%的节点作为抽象上层用户,针对这些用户进行群体划分和特征提取。其次,综合考虑用户之间的静态特征相似性、拓扑结构相似性和微博文本相似性,建立Logistc Regression (LR)模型,提出了用户相似性的计算方法,利用L1正则化进行特征提取,得到对用户相似性有价值的特征。最后,定义一种有效的节点距离计算方法,利用K-Means算法对微博用户进行群体划分。本文在提取的新浪微博10万用户构成的完备图上利用Spark平台对模型的结果进行了验证。实验结果表明,用户相关性模型预测两个用户是否处于同一个圈子的准确率达82.98%;L1正则化的Logistic回归模型的在测试集上的预测准确率达77.27%;基于本文的微博群体划分算法,对于本数据集使用K-means聚类时的最佳社团数为460,此时得到的RJ值约为0.69。
其他文献
汪曾祺的小说《受戎》虽写凡人小事,没有激烈的矛盾冲突,情节故事平淡与自然,在文章结构、语言风格等方面处处体现出诗意之美。是散文化小说的典型代表。
<正> 综观新疆棉花对外运输发展情况,目前影响新疆棉花国际竞争力的因素主要是:由于长期以来在棉花方面只强调生产,而忽视棉花运输,对棉花运输对农业经济的拉动作用认识不够,
新《刑事诉讼法》对审查逮捕程序进行了准司法化的改造,丰富了检察机关诉讼监督的手段,有助于克服行政审批式的审查逮捕程序的弊病。未来应当顺应刑事司法的发展潮流,继续推
日本料理主要分为两大类,即关东料理和关西料理。关东料理主要以东京为中心,关西料理主要以大阪,京都为中心。关东料理口味重,而关西料理口味轻。文章主要通过这两种料理的起
当前,广西民族传统图案在地方性旅游工艺品设计中的应用仍停留在简单的直接应用层面,而且在应用过程中对广西民族传统图案内涵的理解存在偏差,设计理念、制作材料、制作方法
学术界大都认为中国佛教发展到宋代就开始转向衰落了 ,事实并非如此 ,随着社会经济文化的发展 ,宋代佛教经过自我调适 ,正处于一个新的发展时期 ,并有其自身的标志和特点。“
泉镜花在日本近代文学史上以独特的浪漫主义风格和独创的精湛语言艺术独树一帜,对日本近代文学影响深远。在泉镜花辞世三十多年之后,日本文学界充分肯定了泉镜花以独特的浪漫主
mLearning是继eLearning之后产生的一种新的远程学习方式。它具有学习不受时空限制,学习者可以随时、随地、根据自己的进度开展学习的鲜明特点,从而使学习活动更加灵活,使“