面向社交网络的群体分析关键技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:walker250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术与移动互联网的迅速发展,在线社交网络已经成为人们获取信息发表观点意见的重要通道。社交媒体将现实社会中人与人之间的同学、朋友、同事等社会关系迁移至互联网,形成了基于在线社交平台的网络社会。在网络社会中,用户依然是社交媒介的核心和主体,用户之间链接关系构成社交网络基本结构,用户发表内容使得社交网络中产生信息,用户之间的交互行为使得信息在社交网络中传播。在现实世界中,人的本质属性在于其社会性。同样,在网络社会中,群体亦是网络个体展示自我价值的方式。在线社交网络的蓬勃发展使得现实社会中的诸多个体轻而易举地在互联网中实现群体聚集,并进而成为助推社会变革的全新力量。因此,社交网络群体分析对于维护国家安全稳定、维持社会长治久安具有十分重要的意义。网络社会群体,是指网络个体就某个事件在某个虚拟空间聚合或集中,相互影响、作用、依赖而形成的网络个体集合。话题和互动是网络个体形成网络群体的必要途径。立场、行为、信息是网络群体的三要素,相互独立却又紧密联系。基于此,本文先后对群体聚集机理、群体情感分析、用户行为分析和突发事件检测等进行了系统研究,主要贡献如下:(1)在群体聚集机理方面,传统基于结构的社区检测算法仅能检测在结构上紧密连接的用户集合,而忽略群体的语义特征与动态特性。针对此不足,提出了一种基于用户交互行为的动态语义社区检测算法框架,结合社交网络拓扑结构、内容、交互和时间四个因素,探究了当微博数据流流经社交网络结构时,网络群体的活跃状态及演化趋势。首先将群体定义为基于动态交互行为构成的语义社区。其次,提出了一种离散化的动态交互社区检测算法框架,该方法将社交网络数据流按照时间进行离散化,并保留两种类型的社区快照:片内活跃社区和整体活跃社区。在每个时间片内基于文档内容和传播路径构建交互树,采用贝叶斯生成模型对交互树进行建模,然后采用近邻传播聚类算法将交互树合并成为片内活跃社区。当进入新的时间片后,基于话题相似性和网络拓扑结构的重合度进行社区合并,从而达到群体动态演化分析的目的。基于新浪微博14,049,251条消息的实验表明,本文提出的算法可以快速有效检测出社交网络中处于活跃状态的用户群体,并以实例展示了群体的动态变化过程。(2)在群体立场方面,传统文本情感分析方法仅仅从静态角度研判用户情感倾向性,即判断文本中蕴含的支持、中立、反对等观点立场,而在社交网络中,公众情感具有漂移性,公众立场不断变化,兴趣点不断演化。针对此不足,提出了一种基于多元情感向量模型的群体情感演化分析方法。首先结合临床心理学和新词检测算法构造情感向量,基于自底向上的AGNES聚类算法构造情感向量的层次架构。其次,基于上述情感模型,对用户情感进行抽取和聚合,采用基于FP-增长树算法挖掘频繁情感模式。最后基于时序分析判断公众情感是否发生演化。此研究方法首次将时间特性引入传统文本情感分析,以新浪微博中有关日本地震的84万条微博信息为例展示了日本地震期间公众情感的动态变化过程。(3)在群体行为方面,用户在不同的社交网络结构模式下具有不同的转发概率,传统方法将社交网络结构分析和转发行为分析独立进行研究,没有考虑两者之间的相互影响。针对此不足,本文基于新浪微博1000万用户的22亿条转发行为记录,采用统计学假设验证与回归分析方法,系统研究了用户转发概率与社交网络结构模式、交互频率、活跃性和三角形数目的关系。我们发现,社交网络中用户的亲密邻居的转发概率要比稀疏邻居的转发概率大,并且亲密邻居之间的交互频率越高,其转发概率也就越大。同时,用户发帖数目越多,虽然其被转发次数也会增加,但每条消息的转发概率将会下降。此外,用户的转发概率与用户参与的三角形数目也呈显著负相关性。此方法虽未提出任何创新算法,但其展示了如何对社交网络中的大规模海量数据进行科学分析,其发现的一系列结论也具有十分巨大的潜在价值。(4)在群体信息方面,传统数据流突发事件检测算法识别突发特征需要耗费大量时间,而社交网络数据规模大、噪声多,无法满足实时在线分析的需求。针对此不足,提出了一种基于情感符号的在线突发事件检测算法。突发事件与公众情感状态之间存在很强的相关性,从而可以通过监测情感符号的状态变化达到检测突发事件的目的。首先,基于改进的Kleinberg算法挖掘情感符号突发期,采用启发式的近邻传播聚类算法对含有情感符号的博文进行事件抽取。同时采用离线回收机制保证事件概要的完备性。实验表明,此算法框架可以快速有效挖掘出在线社交网络数据流中的突发事件,完全可以满足实时分析处理的需求。此方法的最大优点在于通过情感符号有效的过滤了大量噪声数据,提高了事件检测的准确率。综上所述,本文针对社交网络群体分析关键技术提出了有效的解决方案,并在真实数据集上验证了所提算法的可行性,对于社交网络分析技术研究具有一定的理论意义和应用价值。
其他文献
永川区文化产业和旅游业发展近期重点应是文化旅游业,而其发展思路与方向应该是努力把永川打造为国内外旅游目的地,为此需要开发和建设在国内外具有唯一性、首创性的重量级文
自1921年Fischer因合成次卟啉衍生物而获得诺贝尔奖以来,卟啉类化合物成为人们研究的热点和重点,特别是在仿生催化方面的应用。因为卟啉化合物能够有效催化活化惰性的C-H键,
莫叔迟——我国氧化钼炼钢和低品位钼精矿炼钼铁的创始人莫叔迟,江苏武进县人,中共党员,冶金部钢铁研究总院高级工程师,硕士导师。1959年毕业于北京科技大学(原北京钢铁学院)5年制电冶专
细菌的oligoribonuclease(Orn)是一个高度保守的3’-5’的核酸外切酶。研究表明在铜绿假单胞菌内,Orn对pGp G的水解至关重要,pGpG是重要信号分子c-di-GMP在细菌内代谢循环所
胃食管反流病(grastroesophageal reflux disease,GERD)是常见病多发病,近年来发病有增多趋势。西医主要用抑酸剂和促胃动力药治疗,有一定疗效,但易复发。兰州大学中西医结合研
2009年起中国疾病预防控制机构陆续开始实施绩效工资,但具体实施过程中存在诸多问题,如绩效工资分配与员工个人绩效并不挂钩;公共卫生工作构成复杂,工作指标难以量化;从事复
面对日益激烈的竞争环境,企业选择控制成本来提高自己企业的竞争力。为了控制成本,产品成本计算的精确性需要提高,而我国企业大部分采用传统核算方法,难以对成本进行有效记录
目的 比较胰岛素泵持续皮下输注胰岛素法与胰岛素多次皮下注射法控制血糖治疗效果。方法 将500例2型糖尿病患者(都经过OGTT及胰岛素C肽测定确诊的)随机分成胰岛素泵强化治疗C
西施以"沉鱼"美貌、只身犯险,为"越甲吞吴"执行潜伏计划而著称。在仔细研读先秦相关文献的基础上,笔者认为,西施虽是实有其人,但她并非无所依凭的传说人物,而应是《左传》中
《左传》和《战国策》是反映春秋战国时期史实的两本重要历史文献,《左传》以较原始和真实的资料相当全面地反映了春秋时期的政治、经济、军事、文化、思想等方面的情况。《