基于批流统一计算的数据聚类问题研究

来源 :福州大学 | 被引量 : 0次 | 上传用户：yjc0208

【摘要】

：

【作者】

：

陈豪

【机构】

：

福州大学

【出处】

：

福州大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类算法是一种能将数据集中相似的点聚集起来的无监督学习算法。批量聚类算法虽然准确度较高,但不能有效利用上一次的聚类结果,每次运行都需要使用全部的数据集进行重新计算,导致资源浪费、耗时等问题。增量聚类指的是在新数据到达后,不必重新构建整个模型,只需要根据已经构建好的模型进行更新,这一特点非常适合于流式计算,但增量聚类算法准确度相对较低,并且无法满足流式数据需要实时处理的特点。流式聚类虽然能够实时处理流式数据,但又无法支持较高精度要求的批量数据聚类。针对这些问题,本文设计一种基于流式计算的批流统一聚类模型（Unified Batch and Streaming Clustering Model,UBSCM）。模型中设计了基于流式迭代的簇特征更新机制（Streaming Cluster Feature Update Mechanism,SCFUM）,并在模型的基础上使用Flink流式计算框架实现了批流统一的聚类算法,通过实验验证了算法适用于批量和流式两种数据形式的聚类。论文的主要工作包括:（1）提出基于流式计算的批流统一聚类模型。基于流式数据处理方案,将批量聚类和增量聚类结合。使用批量的聚类初始化方式,在首个时间窗口中初始化簇特征。后续窗口采用增量式的聚类方法,这样能够同时满足批量聚类的高精度以及流式聚类的低延迟等特点。模型中包含基于流式迭代的簇特征更新机制,引入迭代流的思想,将簇特征创建成迭代流。进行流式的数据状态广播、双流连接计算,即将两个流式数据进行连接后计算。根据数据的最近簇进行分区,窗口定时更新每个分区的簇特征并将其返回到迭代流中。采用该机制能够对并行的簇特征迭代流进行提取并更新。（2）实现了批流统一的划分聚类算法。根据提出的批流统一聚类模型和基于流式迭代的簇特征更新机制,引入Flink中的迭代流处理、广播流状态等方法,对批流统一 KMeans算法进行实现。针对离散数据类型,采用相似的方法对KModes聚类算法进行实现。通过实验验证算法满足批量数据与流式数据的聚类。（3）实现了批流统一的密度聚类算法。根据提出的批流统一聚类模型和基于流式迭代的簇特征更新机制。结合传统DBSCAN的密度聚类思想和DenStream的流式密度聚类原理,并引入Flink的迭代流处理、广播流状态等方法,实现批流统一密度聚类算法。

其他文献

基于深度学习的人群计数

人群计数是指对人群图片中的人数进行估计,人群定位是指对人群图片中每一个人在图片中的位置进行精确定位。近些年,基于密度图和深度学习的人群计数发展迅速,成为当前人群行为研究的主要研究方向之一。但目前大部分研究侧重于对网络结构进行改进,缺少对密度图生成方法的研究。对此,本文提出了一种新的密度图生成方法,可以生成质量较好的密度图,使一个轻量的人群计数框架在不同拥挤程度的人群场景中达到领先的人群计数性能;且

学位

基于深度网络的少样本学习算法研究

伴随着人工智能的兴起,越来越多人开始关注深度网络。通常,需要使用大量的数据样本对深度网络模型进行训练,才能得到较好的分类效果,但是很多应用场景中都无法获取足够的样本数量。为了解决样本数量匮乏的问题,专家学者们提出了少样本学习的概念。图像分类中的少样本学习的目标是在每类标记样本较少的情况下,对未标记图像进行正确的分类。目前基于度量的少样本学习算法在图像分类任务上已经获得很优异的性能。这类算法首先获得

学位

基于多重布线技术的超大规模集成电路全局布线算法研究

超大规模集成电路布线阶段是集成电路设计（IC设计）中的核心步骤,用于确定芯片中各个引脚的具体走线,对芯片最后的性能、功耗有着重大影响。超大规模集成电路布线问题是一个NP-hard问题。集成电路的集成规模不断扩大,问题逐渐复杂化,设计一个高效的布线算法难度也越来越大。布线设计一般采用两阶段布线设计,先全局粗化布线再局部细化布线。本文聚焦于全局布线问题的研究上,从2D和3D两个维度,分别提出了解决办法

学位

基于批归一化框架的内协变量漂移问题研究及深度网络训练优化

深度神经网络已广泛应用于各领域,成功解决了诸多复杂的任务,而深度网络的高效训练是其成功的关键之一。然而,由于相关理论基础薄弱,现有的网络训练方法仍存在诸多亟待解决的问题,这些问题严重阻碍了深度网络的进一步推广。随着技术的进一步发展,一方面网络训练中易于发现的诸如梯度消失等问题已经有一些较为成熟的解决方法,但另一方面也存在理论上会影响训练结果却又难以验证及解决的问题。内协变量漂移（internal

学位

先进制程下的时延驱动层分配算法研究

随着集成电路规模不断扩大,时延显著增大并因此对芯片性能造成严重的负面影响。作为超大规模集成电路物理设计中的关键环节,层分配在决定布线方案的时延方面具有重要作用。同时,随着超大规模集成电路工艺发展,先进制程已引起了诸多领域的关注。在先进制程技术中,非默认规则线和通孔柱两项技术分别在优化导线时延和通孔时延方面具有可观的潜力。因此,将非默认规则线和通孔柱相结合可以构成一个相对完整的基于先进制程的线网时延

学位

基于深度学习的图像重定向技术研究

影像记录设备拍摄得到图像,其尺寸大小一般由其设备参数决定,当用户需要将这种统一尺寸图像在不同尺寸显示设备下投放时,通常发生图像被挤压变形或者不完全显示,严重影响到图像传递信息的准确性和视觉展示的友好性。图像重定向是一种旨在处理图像与屏幕尺寸不适配的图像处理技术,因此,对于以上现实常见需求场景,图像重定向是一个不可或缺的图像处理环节。本文研究了经典和基于深度学习的重定向方法,首先对经典重定向方法中重

学位

基于嵌入式平台的辅助驾驶系统研究与实现

辅助驾驶系统（Advanced Driver Assistance Systems,ADAS）是智能交通系统的重要组成部分,其基础算法模块包括车道线检测、跟踪和车前障碍物目标识别等。现有的基于嵌入式平台的辅助驾驶系统由于计算资源受限,尚不能满足实时性和准确性的要求。本文针对扬州市人工智能研究院的实际课题,以面向嵌入式平台的辅助驾驶系统作为研究对象,采用NVIDIA Jetson TX2作为计算平台

学位

基于并行图计算的大规模复杂网络分析研究

复杂事物间的关联通常采用网络进行表示,随着网络规模的增长,事物的联系以大规模复杂网络的形式呈现出来,并行图计算就是将大规模复杂网络抽象成图再以并行的方式进行分析,通常采用图分区和图通信迭代技术。图分区是将图数据划分至不同的分区上;通信迭代的实现依赖于分布式图计算模型,在模型上执行图算法时需要多轮迭代,图上顶点之间会进行消息通信,是一种通信迭代过程。通信迭代时,每个顶点每次只传输一个消息的为单一的通

学位

面向多模态数据的摘要生成研究

多模态摘要旨在从文本、图像等不同的模态中精炼显著信息,并通过一种概括性描述来表示,近年来得到了国内外研究人员的广泛关注。目前的研究工作主要采用深度学习的方法,取得了瞩目的成果。但仍然存在一些问题:难以有效捕获图像中的关键目标特征;现有模型中需要优化的网络参数较多,导致训练时间较长;缺乏对图像内部噪声的屏蔽能力,导致模型难以准确刻画图像表示。本文针对上述问题展开研究,具体研究内容可分为以下三个方面:

学位

基于深度学习的织物瑕疵检测算法研究

在纺织工业中,由于织机的机械故障、机器部件老旧、用于编织的纱线存在缺陷、布匹被过度拉伸或者表面存在褶皱等原因,加工出来的织物表面往往存在大大小小的瑕疵,严重影响到纺织工厂的生产效益。因此织物瑕疵检测成为纺织工业质量控制的重要环节。为了满足织物瑕疵检测模型需要具备高检测速度、高检测精度、低人工成本的实际需求,本文将深度学习方法应用到织物瑕疵检测领域中,研究并设计出适用于多种瑕疵类型与复杂纹理背景图像

学位

基于批流统一计算的数据聚类问题研究

与本文相关的学术论文