【摘 要】
:
近年来,随着网络技术的快速发展,加上移动互联网的快速普及与应用,越来越多的人通过社交网络与他人交流沟通。由于人们对知识的需求快速增长,各种网络知识社区的也蓬勃兴起,成为了众多用户进行知识创造与交流的主要平台。随着用户的不断增加,社区用户数量以及用户分享、交互等网络行为产生的数据急剧的增长,因此,社区发现、用户识别等社交网络分析面临着数据量大、网络复杂性高等问题,严重制约了大规模社交网络分析的发展。
论文部分内容阅读
近年来,随着网络技术的快速发展,加上移动互联网的快速普及与应用,越来越多的人通过社交网络与他人交流沟通。由于人们对知识的需求快速增长,各种网络知识社区的也蓬勃兴起,成为了众多用户进行知识创造与交流的主要平台。随着用户的不断增加,社区用户数量以及用户分享、交互等网络行为产生的数据急剧的增长,因此,社区发现、用户识别等社交网络分析面临着数据量大、网络复杂性高等问题,严重制约了大规模社交网络分析的发展。同时,社交网络的便利性使得信息的产生与传播时间大大减少,对社区信息传播的监控与引导造成了极大的困难。因此,如何识别出社区中的关键用户,进而掌握社区中知识的流向,成为了亟待解决的问题。本文针对传统方法难以处理大规模网络数据的问题,采用Python与Spark技术相结合,利用GraphX框架对传统算法进行改进与并行化处理,设计模型框架,利用集群优势处理海量的数据。本文主要工作如下:(1)提出了一种基于节点重要性的社区发现算法。首先,考虑不同节点的传播能力以及对目标节点的影响程度存在差异,利用PageRank算法计算各个节点的重要性。其次,由于节点的邻节点集合中存在部分对节点链接不紧密或相互作用不大的节点,提出了基于节点共同邻节点数量的节点亲密度度量,利用节点之间的亲密度对目标节点的邻节点进行过滤。最后,通过节点重要性对标签选择策略进行改进,避免出现标签“震荡”现象。(2)构建了关键用户识别模型与方法。本文以CSDN社区用户作为研究对象,对用户交互行为与发布的文本特征进行了研究分析,在K核分解方法的基础上,考虑相邻用户节点的影响力贡献差异,定义网络边的潜在影响力与边的影响因子,综合考虑用户知识贡献者与传播者双重身份,构建关键用户挖掘模型与排序方法。(3)基于Python与Spark大数据处理技术,对相关算法进行并行化处理,提升算法的计算效率。最后,对本文的研究成果进行总结,并对未来的研究提出了展望与未来研究方向。
其他文献
为研究秸秆还田处理对土壤理化参数和冬小麦的影响,通过大田试验对黄淮海平原区的冬小麦进行秸秆覆盖处理,探讨秸秆还田对土壤理化参数及冬小麦形态特征和光合性能的影响机理
北京故宫是当今世界上现存规模最大、保存最完整的古代宫殿建筑群,多处宫殿保持了原有布局,其作为历史文化遗产的真实性、完整性,有助于还原清代宫廷生活面貌,这在世界上也是独一
<正>"当他把我轻拥怀中,当他向我倾诉由衷,我的人生,就化成了玫瑰粉红。"著名歌唱家Edith Piaf以绕梁之音,唱着玫瑰色一生La Vieen Rose。玫瑰,一个从古至今勾引着万千诗人作
对于周敦颐《爱莲说》中“出淤泥而不染,灌清涟而不妖” 一句, 以往的解读多为直译,借莲花喻指君子洁身自爱、不显媚态的可贵精神.“灌 清涟而不妖”若直译则显逻辑不通,故需
各位代表:$$现在,我代表北京市人民检察院向大会报告工作,请予审议,并请市政协各位委员提出意见。$$2019年的主要工作$$2019年,在市委和最高人民检察院的正确领导下,在市人大及其常
目的观察兔VX2肝癌模型无水乙醇介入治疗后复发的早期CT灌注参数改变。方法将20只日本长耳大白兔分两组,每组10只,进行肝移植瘤种植。第1组接种VX2移植瘤后2周进行CT灌注成像
2月18日,公安部对公安民警依法开展疫情防控工作提出明确要求,全国公安机关和广大公安民警要坚持依法履行职责,坚持严格规范公正文明执法,严禁过度执法、粗暴执法。$$当前,经过艰
生态城市是城市区域内各要素能够保持和谐统一、持续发展的人类聚居区。环境补偿是生态城市建设、运营的保障制度。本文界定了生态城市环境补偿含义,论述了环境补偿的理论基
采用盆栽方法研究了饼肥对烤烟叶片发育过程中色素降解及相关生理变化.结果表明,饼肥处理叶绿素、叶绿素酶活性、总类胡萝卜素整个生育期含量均较高;无机肥处理在烤烟叶片发
为贯彻落实习近平新时代中国特色社会主义思想和党的十九大精神,深入实施人才强市战略,鼓励和引导更多域外辽源籍人才带信息、带技术、带资金、带项目、带成果回馈家乡、助力发