社交网络数据抓取和社团发现研究

被引量 : 0次 | 上传用户:cau_hechun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络服务(Social Networking Services,SNS)是以人和人之间的关系为基础构建起来的用于信息发布和分享的平台。它和在线社区有着本质的区别—在线社区是以信息本身的某属性维度来组织的,通常以内容为中心,如天涯社区;而社交网络则以用户为核心,注重用户间的关系和信息分享,如新浪微博。SNS的概念起源于社会网络研究者提出的“六度理论”,即最多通过六个人就能认识任何一个陌生人。SNS将现实生活中的人际关系搬到了互联网,且目前约有一半以上的中国网民通过社交网络沟通交流,分享信息,它已然成为覆盖用户最广传播影响最大、商业价值最高的web2.0业务。Gartner报告指出,85%的大数据属于广泛存在于社交网络、物联网、电子商务领域的非结构化数据,因此,对于社交网络的数据抓取和挖掘的研究非常重要,本文将在这两方面做一些探究。目前,对于社交网络数据抓取通常基于开放API,对网络数据进行简单的抓取和存储,导致巨大的开发和维护成本,并且不利于对关系数据进行挖掘利用。本文提出了一种基于社交网络自身特征的抓取和存储框架。框架将区分社交网络的内容信息和关系信息,针对性地进行抓取和存储,并且在抓取和存储之间形成反馈机制,支持开发者扩展业务相关的动态抓取策略。同时,框架对抓取和存储子系统进行层次化建模,提供交互式动态页面抓取、增量式抓取、异常恢复、自定义模块等功能,方便开发者对系统的复用和扩充。此外,本文对社交网络中的社团现象进行探究,提出了一种基于局部中心节点距离向量聚类的非重叠社团发现算法。与目前的算法进行比较,真实网络中的隐藏社团结构可以被更好的挖掘出来;对于社团数量已知的情况,可以利用k-means等聚类算法更好地提取出隐藏社团结构。社交网络区别于普通互联网服务,更关注用户间的关联关系,因此,本文所做两方面研究将“用户关系”放在核心地位。同时,结合这两方面的研究,我们可以自动化地获取社交网络数据并发现其中的社团结构。
其他文献
竹简上篇主要是“性可以为善,可以为不善”论,下篇则已开始提出“性善”论,由上篇到下篇呈现自然人性论向道德人性论的过度;不论是《竹简》还是以后的《诚明》,都受到古代“生之谓
“研究性学习”(PBL)这门全新课程已形成全方位的挑战。教师应采用怎样的指导方式,使课程得以全面实施?太仓高级中学嵇永宁副校长带着这些问题阅读参考了许多国外资料,编译成
企业的管理费用是指企业在经营管理过程中发生的日常开支,随着资本市场日益完善以及企业规模的不断扩大,企业的管理费用也在不断的发展和变化,对企业经营管理过程中发生的管
本文立足当前推动普通本科院校转型发展应用技术大学的时代背景,着眼国家应用技术人才培养的战略大局,从推进形式、培养目标、发展通道、改革重心和转型方式五个角度,对转型
阐述了张杨路共同沟消防设计的由来、必要性和可行性 ,简单介绍了共同沟内设置的水喷雾消防系统。
民族认同研究一直是人类学、社会学、民族学等学科共同关注的领域。民族认同是社会成员对其所属民族成员的身份认知,以及由此引起的归属感。都市环境下的少数民族面临着复杂
“环保课题”教学是高中地理课堂教学不可分割的一部分,但在传统地理教学中,教师只专注于地理知识的显性知识,如交通、资源、人口、风俗等等,忽略了环保知识。这恰恰有悖地理
目前,全球食物短缺问题的日益严峻,转基因食品作为转基因技术发展的产物,让人们看到了解决这一严峻问题的希望,对经济和社会发展发挥着越来越重要的作用。近几年来,转基因技