社交网络的数据采集策略研究与应用

来源 :浙江理工大学 | 被引量 : 1次 | 上传用户:bfxj8812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网的兴起和通信技术的发展,人们使用在线社交网络进行社会活动已成为日常生活的一部分。在线社交网络已经渗透到人们生活的方方面面,是时下最重要的移动互联网应用。许多组织对在线社交网络感兴趣,社会学家会收集相关数据用以研究在线用户行为。市场调查员根据在线社交网络挖掘信息,用以指定市场推荐。社交网络的提供商通过了解社交图和用户行为,优化数据存储设计和云服务或提供个性化服务的方式来改善用户体验。社交网络如此庞大的数据量给研究带来了许多困难。首先,企业基于商业机密以及用户隐私的考虑,并不愿意分享他们的商业数据,即使数据是以匿名的形式。其次,从大规模在线社交网络中获取所有数据也不现实,因为要获取数以亿计的用户是极其耗时的。于此同时,即使利用高性能计算机集群处理如此庞大的数据也非常困难。最后,在线社交网络上用户数量增加迅速,用户间的关系也会频繁的发生改变。因此对社交网络设计有效的采样算法非常重要。广度优先搜索算法(BFS)是常用的图遍历方法,但是BFS会过度的采集高度节点同时这种偏移很难被纠正。随机游走(RW)是一种经典的网络节点游走方法,但同样偏向于采集高度的节点且采样效率低。Metropolis-Hastings随机游走(MHRW)是一种典型的无偏采样算法,但是该算法在高聚类子网中会过度的重复采集低度节点。本文的主要研究成果如下:(1)本文基于MHRW算法提出了一种改进,称之为无偏延迟采样(UD),这个算法在MHRW的采样过程中加入了延迟接收函数,使得采样的网络更加可靠。通过大量的实验,证明UD算法可以适应不同连通程度的网络。一方面,当采样数据集没有重复节点时UD算法有更好的网络度分布属性。另一方面,UD算法可以减少重复节点被采样的概率并改善网络探测能力。(2)在真实社交网络微博中实现了我们所设计的UD采样算法,并与其它常用的采样算法BFS、RW、MHRW一起在微博中各采集了10万条数据,实验发现,UD采样算法在真实环境下可以减少采样重复率。(3)实际运用采样算法时,并不知道何时停止采样,停止较早会使采样数据不充分。我们提出了一种在采样过程中判断数据是否充足的算法,该算法基于Geweke收敛判定准则。通过实验证明,我们的数据收敛判定方法可以指导采样过程安全的终止。判断采样数据是否充分对实际数据的抓取至关重要。
其他文献
目的研究老年男性饮食、运动、吸烟、嗜酒、体重指数(BMI)、高血压、冠心病、胃及十二指肠球部溃疡、慢性支气管炎等因素对骨密度(BMD)的影响。方法双能X线BMD仪检测前臂远端
建筑具有悠久的历史,在漫长的历史发展过程中,建筑理论技术得到了不断的丰富,建筑类型也越来越多,在人们的日常生产生活中占据着重要的地位。现如今,建筑力学已经成为独立的
太极图是华夏民族古代思想智慧的结晶,也是中华文化生动形象的一种表现形式,还是中国古代《易》理具象而直观的概括。立象尽意之太极图所蕴含的在"阴阳"对立统一辩证关系中寻
<正>沈阳国际软件园是东北乃至全国以工业软件为特色的软件产业集群密集区,也是目前沈阳最大的开放性软件园区。园区总规划用地面积100万平方米,产业建筑面积230万平方米,总
清末至民国书坛,激进派扬碑抑帖、保守派唯帖是尊,而温和派碑帖并重,出现了五彩缤纷的局面,冲决了千百年来帖学一统天下的沉闷局面,揭开了中国书法史上灿烂的一页。其中由于
目的调查农村地区老年高血压人群糖代谢异常患病率情况。方法采用分层整群抽样方法对辽宁阜新农村≥65岁的1 637名老年人进行流行病学调查和实验室检查。根据1997年ADA建议,
由于文化心理的不同,汉语、日语对转折复句关联词语的使用表现出明显的心理差异。汉语转折复句关联词语的使用有意合法和形合法两种形式,而日语没有意合法,只有形合法一种形式;关
腹泻超过4周即为慢性腹泻,中医属“久泻”范畴。久泻病势缠绵,临床常见患者神情倦怠,面色少华,舌质淡或胖,苔白润,脉细弱等虚象,每因饮食不当、过度劳累或情志因素反复发作腹泻。中
期刊
国有制企业,在国际惯例中一般是指由国家的中央政府或联邦政府投资或参与控制的企业。在我国,国有企业还包括由地方政府投资参与控制的企业。从这个角度来看,国有企业很大程