大规模社交网络中局部兴趣社区发现研究

被引量 : 0次 | 上传用户：ac8297090

【摘要】

：

随着web2.0时代的到来,越来越多的数据呈现在互联网上,更多的体现用户在网络上的互相交互。人们既生产大量网络数据、又同时对其进行消费。人们的生产、生活、学习、娱乐也越

【作者】

：

尹红军

【发表日期】

：

2014年期

【关键词】

：

社交网络兴趣建模社区发现微博营销个性化PageRank

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着web2.0时代的到来,越来越多的数据呈现在互联网上,更多的体现用户在网络上的互相交互。人们既生产大量网络数据、又同时对其进行消费。人们的生产、生活、学习、娱乐也越来越离不开互联网。社交网络把现实中人与人之间的关系建立在互联网上,加强人们之间的交流和互动,促进信息更快的在世界范围内流动。随着Facebook上市,社交网络也越来越多的受到人们的关注。Facebook是一种强关系的社交网络,用户可以利用其进行朋友之间的关系的促进改善和维护；微博Twitter是一种弱关系的社交网络,在其上容易形成意见领袖和信息快速传播,有利于社交网络的广告推广和营销；Linkedin是专注于商务人士拓展业务,求职招聘等进行商务交流的专业社交平台。国内也有很多社交网络如腾讯微博、嘀咕、9911、随心微博、新浪微博、搜狐微博、Follow5、网易微博、品品米、MySpace聚友网、百度i贴、同学网、饭否等,其中比较知名的新浪微博比较类似于Twitter。截至2012年12月份,国内知名社交网络新浪微博用户规模达到5亿；时至2012年7月国外著名社交网络Twitter用户数量超过5亿；另外一个世界知名社交网站FaceBook用户数量达到10亿以上。据国外知名数据公司PingDorn的数据显示,全球已有几十亿社交网络用户,同时社交网络链接和网页插件已经占据全世界所有网站的四分之一。对社交网络进行分析,发现社交网络中各种社区对于商品推荐、广告推送、朋友推荐以及对社交网络进行划分具有十分重要的意义。本文在调研分析大规模社交网络发展和研究的基础上,主要就如何有效挖掘社交网络中兴趣社区做了深入研究。本文先就其两个子问题社交网络中个性化兴趣的建模和个性化PageRank高效计算进行研究。在完成兴趣建模和个性化PageRank高效计算的基础上,进行大规模社交网络的兴趣社区探测。首先,采用用户好友关系信息、用户发布和转发微博信息作为兴趣信息,针对普通用户和特殊用户的不同,分别提出以关注对象为兴趣的三层模型和以发布微博为兴趣的两层模型的模型表示方法。针对微博内容为兴趣建模,提出基于LDA改进的微博兴趣分类方法。针对用户兴趣改变的问题,提出基于用户微博内容为反馈的贝叶斯方法,同时还提出基于兴趣社区发现为目的的用户兴趣偏好模型。最后通过以用户标签作为参考对模型进行评估,得出模型在标签较充足时能有80%以上的查准率和查全率。其次,个性化PageRank作为信息检索和数据挖掘领域的重要算法,随着数据规模的不断增大,有必要对其进行优化和加速。传统迭代方法比较耗费时间和空间,本文使用基于Monte Carlo随机步方法。MapReduce适合数据密集型计算,不适合大量的迭代,本文提出基于MPI的分布式算法。改进先前的二路合并方法到基于Fibonacci的方法,从理论上性能有30%左右的提高,在大量真实数据的实验上得出该方法相对基础方法性能提高10%到40%。最后,由于社区结构信息包含成员关系连接信息和成员本身的个性化信息,提出考虑结构信息和节点自身属性特征的基于个性化PageRank的社区发现方法。针对日益发展的社交网络的数据大规模性,提出局部的社区分析方法和将算法改进适应在分布式计算架构MapReduce之上。由于大部分社区探测方法不适合用在具有千万级甚至更大用户规模的社区分析,而Metis方法是少有的能处理如此大规模的网络分析工具,本文将所提出的基于个性化PageRank方法与Metis方法进行比较,凸显本文提出方法具有更好的社区探测能力,能找到聚簇性很强的局部社区。另外,本文通过MapReduce扩展实验说明了方法的可扩展性和高效性。

其他文献

PCR引物设计及软件使用技巧

介绍了使用软件设计PCR引物的技巧。在PCR引物设计原则的基础上 ,详细介绍了两种常用引物设计软件的基本使用方法 ,并对其各自的优缺点进行了比较。一般性引物自动搜索可采用

期刊

PCR引物设计软件

论网络舆情对司法公信力的影响

新媒体时代,互联网深刻影响着我们生活的每一个角落。越来越多的普通民众通过网络——这一有别于传统的力量和方式来放大自己的声音。处于这种背景下,对于民众关注的焦点案件

学位

网络舆情司法公信力舆情监督

神话对族群跨文化传播的影响研究

神话表现了不同族群先民对于世界最初的认识,是族群文化精神的重要来源。探究神话的差异,有助于增进族群间的理解和宽容,促进沟通和交流,避免由于文化差异产生误解。蒙古族和

学位

跨文化传播神话影响蒙古族汉族

益气定悸汤治疗心悸40例临床观察

<正>心悸是目前临床中常见的中医病症,患者以心慌胸闷为主要表现,心电图可显示多种类型的心律失常。笔者自2004年—2006年用益气定悸汤治疗心悸患者40例,观察患者临床症状及

期刊

心悸气虚血瘀证益气定悸法

嘉兴港物流金融服务建设研究

本文通过物流金融模式在港口运用的研究,得出港口物流金融可以有效解决"中小企业"融资难问题,在国际结算与融资中起到重要作用和可以提升港口的竞争力。嘉兴港应抓住机遇,努

期刊

嘉兴港物流金融港口物流物流服务

高校学生综合素质测评系统的设计与实现

目前我国高校学生综合素质测评数据管理还存在很多实际操作上面的问题，系统的设计和研发也不能适应我国高等院校。因此设计一个功能完善的信息系统对于我国高等院校学生综合素

学位

综合素质测评系统J2EESQLServe2005

现代化背景下大学生宿舍文化现状研究

大学生宿舍文化是指在校园这个宏观大环境中,由宿舍成员共同学习和生活发展起来的一种文化现象,主要由物质文化、制度文化、精神文化和行为文化构成,是以寝室为单位进行的一

学位

大学生宿舍文化建设现状

智慧园区政企公共服务平台的设计与实现

国家级园区高度重视信息化工作，大力开展智慧园区建设，将信息化建设作为完善园区投资环境、提高管理和服务水平、提升园区综合竞争力的重要手段，同时将信息化作为推动园区企业进

学位

智慧园区政企公共服务平台

蛋白质结构从头预测方法研究进展

蛋白质结构从头预测是不依赖模板仅从氨基酸序列信息得到天然结构。它的关键是正确定义能量函数、精确选用计算机搜索算法来寻找能量最低值。基于此,本文系统介绍了能量函数

期刊

从头预测能量函数构象搜索Rosetta

整合营销传播中传播渠道及传播媒介的研究

随着“国八条”、“国五条”等政府限购政策的出台,楼市泡沫相对减少,人们购房态度也越来越理性,房地产市场已经由“卖方市场”进入“买方市场”,这使得房地产企业必须开始注

学位

整合营销传播传播渠道传播媒介网络传播媒介活动

大规模社交网络中局部兴趣社区发现研究

与本文相关的学术论文