社交网络中关键人物的话题演化分析

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qq619609199
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着在线社交网络平台的大量涌现以及用户参与度的持续增长,我们已步入在线社交的信息化时代。社交网络中的关键人物处于网络中心或桥节点的位置,一方面,其言论具有代表性,反映了大部分网络用户的观点;另一方面,关键人物与粉丝和媒体的互动会促进话题传播,甚至影响舆论走向。因此对社交网络中关键人物的话题演化分析具有非常重要的理论价值和实际意义。  关键人物话题演化分析的研究基础是文本话题聚类方法,但社交网络的快速发展和文本数据的动态性为研究提出了新的挑战。第一,话题个数的不确定性:不同用户话题个数不同,同一用户不同时期的话题个数也不同,传统的话题模型中话题个数往往是通过经验设置且固定,已不能满足自主选择话题个数的需求。第二,话题演化具有动态性:话题内容会随着时间的变化而增强、减弱、甚至是消失,传统时序话题模型通过划分时间窗口,建立连续时间窗口内主题的相关性来分析话题的动态演化的方法,已不能处理快速更新,动态性强的社交文本。  针对话题个数不确定、话题内容动态变化快的挑战,本文面向社交网络的关键人物,以挖掘人物话题、分析话题演化过程为目的展开工作。本文的研究内容与贡献主要包含以下三个方面:  提出一种基于DD-CRP的短文本话题演化分析方法:面对话题个数不确定和内容动态变化快的挑战,DD-CRP模型的非参特性在话题挖掘过程中可以根据数据样本特点自主确定话题个数,而其时序特性可以对话题的演化进行建模。本文结合LDA学习得到的新闻语料高频词以及将部分实体信息整合的方法,实现了对社交网络短文本的话题演化分析。  提出一种基于快速搜索的DD-CRP模型求解算法:针对传统的话题模型求解算法需要多次迭代,并对初始值敏感的问题,本文提出了一种基于快速搜索的DD-CRP模型求解算法,该算法只求得最终的数据聚类结果,不会对每个数据样本对应的潜在变量进行采样,在保证一定建模精度的前提下加快了求解速度。  应用于新浪微博中的关键人物话题演化:本文将DD-CRP模型应用于新浪微博平台,通过数据获取与处理、模型建立与求解、结果展示等模块,实现了对真实网络中关键人物的话题挖掘与演化分析功能,为用户兴趣挖掘和社会态势感知等任务提供了技术支撑。
其他文献
随着计算机和互联网技术的飞速发展,网络上的多媒体信息呈现爆炸式的增长态势。如何分类和检索这海量的多媒体数据,是人们的迫切需求,也成为亟待解决的问题。基于内容的互联网图
随着社会的不断发展进步,人们已经步入了信息化时代,集成电路设计与工艺制造作为信息产业的基础,对信息化的高速发展发挥着关键性作用。本论文以高性能处理器中的关键模块寄存器
软件缺陷检测是计算机科学特别是软件工程相关领域的重要研究工作之一。对于静态检测方法而言,如何在保障准确性的同时改善可扩展性一直以来都是研究的热点问题。本文设计并实
相场模型起源于计算材料科学,被广泛应用于模拟材料物理、计算化学等领域的多个过程。近年来,相场法已成为该领域模拟中尺度水平微结构演化的一项通用性很强的数值方法。指数时
车联网系统旨在通过车车之间(V2V)、车路之间(V2I)的信息交互,有效地降低道路事故率,提高交通效率,并为用户提供高质量的流媒体服务。在行车安全方面,基于短距离通信协议(DSRC)的
随着互联网和办公自动化的日益普及,PDF(Portable Document Format)文档以其丰富的功能、高度的集成与封装以及平台无关的特性迅速成为全球电子文档分发的开放式标准。PDF文档
互联网中的信息聚类与整合是研究人员一直关注和研究的热点问题,由于信息量大,算法需要综合考虑准确率、运行效率和存储开销等问题,存在较大研究难度。本文针对互联网中新闻信息
藏文信息处理的研究已有多年的历史,但直到近几年,主流的操作系统平台才逐渐完善地解决了Unicode国际标准藏文字符集支持问题,但目前仍有多种藏文编码在使用,数据交换和共享仍然
基于位置的服务(Location based Service,LBS)对于人们的生活有着至关重要的作用,而空间定位技术是整个LBS系统得以实现的核心技术。目前,以GPS(GlobalPositioning System)为代表
随着互联网和多媒体技术的快速发展,网络视频服务已经变得越来越流行,互联网上的同一视频需要为不同播放终端和不同网络接入方式的用户提供相同内容的视频服务。由于播放终端的