微博群体发现技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wangheng1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的爆炸式增长,以微博为主导的一批在线社交网络蓬勃发展。越来越多的人以群体的形式在微博网络上进行聚集,且规模随着时间推移逐渐壮大。微博群体的诞生一方面有利于社会正能量传递,另一方面也会导致社会负面情绪的传播。因此对于微博群体的发现与控制刻不容缓。  面对微博复杂网络环境以及群体发现任务需求,本文以新浪微博数据为例,对微博群体发现任务中群体特征表示以及群体聚类算法构建两个关键技术展开深入研究。本文的研究内容和主要贡献如下:  1.提出一种基于node2vec群体特征融合表示方法  针对微博的复杂网络环境,本文使用微博用户静态属性特征与用户关系网络动态特征相结合的思路,对传统的群体特征抽取方法进行优化。结合微博群体中各个体的自身属性,并附以微博用户的关注与被关注网络,将微博网络信息进行特征化表示,使用node2vec算法对微博用户关系网络进行编码及特征化。实验证明,所提出的基于node2vec的群体特征融合表示方法相对于传统的群体特征表示方法具有更优的效果,且运算时间大幅缩短。  2.提出一种基于半监督聚类的群体发现算法  针对本文所面对的多源点环境,本文对传统聚类算法进行优化,融入带标签源节点信息,设计了一种基于半监督聚类的群体发现算法。在算法模型中,选用DBSCAN为基础聚类模型进行优化。使用源节点的特征向量信息,优化聚类中的距离函数,并使用带标签的源节点,通过半监督方法优化聚类过程。实验证明,所提出的基于半监督聚类的群体发现算法与传统群体发现聚类算法相比,NMI大幅提升。  3.构建了一套分布式微博群体发现系统  基于以上两点关键技术,本文以实际微博消息数据、微博用户数据、微博用户关系数据为数据源,在数据源上构建了一套异步架构下的群体发现系统。该系统前端采用Html5+Rest接口模式,后端采用Spark平台支撑,数据存储采用Mysql+Mongo+Hive分布式与非分布式数据库并存机制。系统运行高效,用户体验极佳。
其他文献
信息科学作用于环境灾害预测与评价是当前的一个研究热点。考虑到人工神经网络具有的强大的非线性逼近能力、容错能力和小波分析的局部特征分析能力,本文通过建立小波-BP神经
Web服务技术给企业的应用程序集成带来了方便,但是分布的单个Web服务功能简单有限,因此有必要将它们进行组合。Web服务的这种组合方式使得各原子服务间产生了大量复杂的信息
随着Internet的快速发展,P2P技术也取得了迅猛的发展,涌现出了非常多的P2P应用。这些应用在丰富了我们生活的同时,也带来了大量的问题。它们消耗了巨大的网络带宽,使原来运行
非合作通信是指正常通信以外的第三方为了达到一定的目的,对通信双方的信号进行截获,在没有任何先验知识的前提下,对截取的信号进行调制识别并解调信号,以获得信号携带的有用信息
随着垂直搜索引擎的出现和发展,专业化的搜索成为搜索引擎发展的一个趋势和方向。垂直搜索就是针对某一领域,某一个行业进行专门的检索,是搜索引擎的细分和延伸,是对网页库中
学位
本文在分析计算模式的进化趋势之后,结合当前日益发达的网络基础设施和日益丰富的网络资源,提出了一种新的计算模式——个人网络计算及其计算平台个人网格。就像个人计算机一样
雷达是军事中的“千里眼,顺风耳”,但是在维修过程中由于人员少,保障能力差,建立一套便于维修的专家系统是提高维修率,保障装备正常工作的有效方法。以往采用的构造硬件专家系统在
Ad hoc网络也称无线自组网、多跳网络,是由一系列带有无线收发装置的移动节点组成的临时性自治系统。该网络最大的特点是不依赖于固定的基础设施,无需中央控制管理。由于Ad h
数据挖掘是在海量数据中对有用信息进行抽取或者挖掘的过程。随着数据挖掘技术的快速发展,在商业、金融、医疗等多个领域,它在给人类带来方便讯息的同时,也不可避免的涉及到
今天,科研、政务、商务等诸多应用领域普遍存在业务需求快速多变的特点,要求其信息系统能够按需动态集成,以即时应对需求的变化.随着面向服务计算技术的日渐普及,互联网内已