社交数据中话题聚类与趋势分析研究与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:slhulala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动互联网的发展,社交网络凭借其信息传播速度快传播范围广的特点迅速成为人们网络社交的重要平台,对社交数据中话题的趋势进行研究和分析具有重要意义。本文构造爬虫系统从微博平台上爬取大量社交数据并对其进行初步分析。提出改进的文本表示模型并运用融合了NMF和时间窗类簇合并的层次聚类算法进行文本聚类形成话题。最后分析影响话题趋势的特征并对趋势预测模型进行对比研究和改进。
  首先,构建了一个爬虫系统,从微博平台上爬取社交数据,对所爬取的微博数据进行了基本分析,包括博文分析、博主分析、用户网络分析和话题网络分析。
  其次,针对现有的文本表示模型往往只考虑词频特征,忽略了词与文档之间关联性,以及忽略了同一个词在不同长度文档中的重要性,本文提出结合改进TF_IDF和PMI的文本表示模型。针对短文本特征稀疏的特点,本文引入L2正则化因子对非负矩阵分解算法加以改进。然后,将层次聚类与非负矩阵分解结合,同时使用归一化折损累计增益的凝聚度评价方法,形成层次聚类框架下的逐步非负矩阵分解算法并对文本集聚类,对聚类结果再按时间窗进行划分,同时使用联合了余弦相似度和Jaccard相似度的相似度计算方法,对相邻时间窗的类簇进行合并,以达到动态检测合并话题的效果。
  最后,对话题趋势进行分析和预测,从不同时间粒度对微博转发值进行分析,确立以转发量为主的趋势预测指标。分析影响话题趋势的特征,在传统KED算法的基础上提出改进的意见领袖影响力计算方法,并对影响话题趋势的特征进行对比分析。用多种基于机器学习的的预测模型对话题趋势进行预测,并提出了改进的决策树算法和随机森林算法,通过对比,验证了改进算法的优势。
其他文献
研究背景  胶原蛋白是动物体中最丰富的蛋白质,并且是细胞外基质(ECM)中最普遍的成分之一。目前模仿ECM自然特征的胶原蛋白的水凝胶已被广泛制造以支持干细胞的增殖和分化。然而,关于水凝胶支架中不同来源的胶原蛋白和ECM蛋白的百分比如何调节干细胞特别是间充质干细胞(MSC)的功能的了解还很少。  研究目的  探索水凝胶中ECM组分及其比例对间充质干细胞活性的调控作用  实验方法  1、实验材料:新生
学位
有研究发现糖胺聚糖(GAG)的硫酸化模式在细胞培养中对神经元突起形成和神经元极化起重要作用。其中硫酸软骨素6(chondroitin-6-sulfate,C6S)的硫酸基团位于GAG的6-O位置,通过前期实验我们发现C6S对小脑神经元的轴突生长起抑制性作用。我们认为C6S结合肽有望通过阻断C6S的功能,促进脊髓损伤后的轴突再生及功能恢复。本课题主要通过细胞存活实验、神经元轴突生长实验,组织免疫荧光
当今无线系统要求天线的定向性高、可辐射角度范围宽,以达到电磁波信号传播距离远、覆盖范围广的目的。而波束扫描天线定向性高,并且可以通过改变频率、机械、电子元件、特殊介质等条件来改变波束方向,从而拓宽天线的辐射范围。目前应用最广泛的波束扫描天线是相控阵天线,相控阵天线通过移相器、衰减器等组件来实现波束方向的控制,这使得相控阵天线成本高昂、体积庞大、结构复杂。漏波天线具有随频率变化扫描波束的能力,并且具
随着无线网络的广泛部署和智能移动终端的普及,移动流量日益激增,其中无线视频流量已经占据了主要部分。海量的视频内容以及新兴的服务业务为无线视频传输设计带来了巨大的挑战,包括视频传输效率以及传输质量的信道适应性。在传输效率方面,需要考虑在有限无线资源情况下,如何最小化大容量且高相关性视频的传输失真。在信道适应性方面,需要考虑在时变衰落的无线信道以及异构的多播信道场景下,如何使得视频恢复质量随着信道条件
动态有向图中具有更新依赖关系,即有向边的目的图顶点的状态值依赖于源图顶点的状态值。当沿着动态有向图中更新依赖关系传递的方向依次异步串行地处理图顶点时,图顶点状态值能够在动态有向图中快速传递。然而,现有软件图处理系统和硬件图加速器无法实时感知和利用更新依赖关系的这种特性,因此,现有方法在处理动态有向图增量计算时无法同时实现快速迭代收敛和低预处理开销。  针对现有软件和硬件方法在处理动态有向图增量计算
随着网络功能虚拟化和边缘计算的演变和发展,网络功能被部署在靠近用户的边缘服务器上来减少用户和云之间的数据交换和端到端的延迟。由于边缘服务器集群的资源有限,现有许多研究致力于开发轻量级的基于容器的网络功能虚拟化平台。然而,在基于容器的网络功能虚拟化平台中,多个容器共用同一个核来节省资源。这样会引起虚拟网络功能之间相互竞争资源,从而导致虚拟网络功能所服务的流的性能需求无法得到保证。  基于容器的网络功
学位
核值是一种反映图的聚合度的重要指标,也是图数据分析中紧密子图挖掘的一个热点,它适用于对网络拓扑结构的分析以及社区的查找,还可以用来遏制谣言的传播。静态图上的核值计算以及动态图上的核值更新分别称作核值分解和核值维护问题,这一类问题已经得到了广泛的研究。然而,绝大多数的这些研究都只关注于无权图,但是在现实场景下,大部分的图都是有权的,每个个体在网络中都自带一定权重。然而,目前还没有较为高效的算法能解决
学位
近年来,网络空间安全事件频发,对社会造成了难以估计的影响。在这样的背景下,针对软件系统的漏洞检测研究愈发重要。深度学习因其强大的建模能力和智能化学习能力受到了广泛关注,研究人员纷纷应用深度学习技术进行源代码的表征学习以生成漏洞检测模型。然而,当前漏洞检测领域极度缺乏用于训练模型的真实软件漏洞数据集,目前有效的数据大都用人工的方式生成,效率低且成本高。此外,现有基于深度学习的漏洞检测方法大多是使用线
自2008年比特币问世以来,区块链作为比特币等加密货币的底层技术引起了金融界和学术界等多个领域的广泛关注。区块链本质上是一个提供了一个开放的分布式一致性算法的分布式数据库系统。尽管区块链技术是一种完全去中心化且设计安全的协议,它仍存在可扩展性的瓶颈:低交易吞吐率和高确认延迟,这些因素很大地限制了区块链的实际应用。因此设计一种可扩展的分布式一致性算法非常具有现实意义。  分片技术是提高区块链可扩展性
学位
随着深度学习(Deep Learning, DL)的快速发展,为了帮助从业者快速编写和训练模型,出现了大量的深度学习框架。这些框架按照编程范式可以分为两类:声明式编程框架和命令式编程框架。TensorFlow和PyTorch分别是这两类中最受欢迎的框架,分别使用静态和动态计算图来表示计算过程,前者能在运行之前对计算图进行优化,而后者能更好地处理变长输入。由于两者使用了不同的计算图理念,其在框架设计
学位