实时数据流自适应聚类及演化分析方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:baimn1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘中一种基础且重要的方法,它能将特征属性比较相似的数据对象聚为一类从而反映数据的整体分布情况,因此被广泛应用于生物科学、环境监测、交通管理和金融分析等领域。随着无线感知器和智能应用设备的高速发展,越来越多的数据是以流的形式实时到达。这些数据流通常包含着大量有时效性且动态变化的信息,因此通过实时数据流聚类挖掘出数据流最近状态下的潜在价值信息是亟待解决的问题,从而为重大事件预警和关键实时决策等应用提供技术支撑。现有的数据流聚类算法通常采用两阶段(online-offline)流处理框架,然而在这种处理框架下的数据流聚类算法应用到实时场景中时仍旧面临着以下几个问题:(1)离线阶段的聚类执行不能够完全满足实时响应并调整聚类结果的基本要求;(2)无法自适应地调整聚类执行从而导致不必要的计算资源浪费;(3)缺少对历史信息的考量,大多流聚类算法更关注最近数据流的聚类情况;(4)虽然能够应对聚类演化但不能识别其具体演化形式,缺少对聚类结果在时间维度上的进一步挖掘。基于实时场景下不能完全实时响应和计算资源开销大的问题,本文将实时数据流自适应聚类作为基本研究目标。针对缺少历史信息考量的问题,提出了一种基于复合窗口的实时数据流自适应聚类算法(Adaptive Clustering Based on Composite Window for Real-time Data Stream,ACCW);另外针对缺少聚类演化分析的问题,提出了一种基于网格的实时数据流自适应聚类及演化分析算法(Grid-Based Adaptive Clustering and Evolution Analysis for Real-time Data Stream,GACE)。ACCW通过复合窗口模型维护最近状态和历史状态信息,并利用历史状态信息来指导当前数据流聚类的执行;它能够自适应地调整聚类执行的间隔时间,并在实时流处理平台Flink上完成部署,从而实现在线调整并实时返回聚类结果来高效应对数据流的变化。GACE将聚类演化分析纳入到数据流处理过程中,它通过跟踪聚类中心的网格密度和漂移向量的变化来自动触发聚类执行;同时根据数据流的变化对聚类参数进行动态调整,从而可以高效获取更加完整可靠的聚类结果。最后,我们将上述两种流聚类算法整合,设计并实现了一个集可视化数据生成、数据流自适应聚类和聚类演化分析为一体的数据流聚类及演化分析系统,为用户执行与结果分析提供方便。本文相关研究成果可部署在现有主流的实时流处理系统中,具有重要的研究意义和应用价值。
其他文献
地面沉降对城市发展以及人类生命财产安全有极大的危害,因此对地面进行沉降监测具有重大的现实意义。传统的监测方法费时费力、效率低、成本高,且不能实现大范围测量。时序InSAR技术具全天候、范围广、精度高及获取时间序列地表沉降等优点,逐渐成为城市地表监测的重要方法。本文利用两种不同的时序InSAR技术对杭州市和温州市的城市区域进行了地表形变监测,并对监测结果进行了验证分析,主要研究内容与成果如下:(1)
学位
报纸
面向多轮对话场景的省略恢复与指代消解任务是近年来自然语言处理领域的一项关键任务,其能够通过对缺省话语的补全消歧,获得更能表达完整语义信息的语句,以辅助推进对话进程,帮助对话系统正确地理解用户的意图。给予后续对话状态跟踪、对话回应生成、对话自动摘要等下游任务以强有力的基础支撑。近年来,随着深度学习技术在自然语言处理领域的兴起和发展,多轮对话省略恢复与指代消解研究也不可避免地受到了这波浪潮的冲击。本文
学位
随着屏幕时代的到来,人们对电子产品形成不同程度的依赖,加上空气污染与空调等外界环境因素的对泪膜稳定性的影响,干眼症已成为全球流行性眼部疾病。作为一种多病因的综合性疾病,干眼症检测过程复杂成本高,亟需更加便捷精准的诊断方式。然而相关研究表明深度学习技术在干眼症检测领域的研究与应用相对较少,因此本文就深度学习在干眼症检测领域进行研究,具体包括如下内容:(1)针对睑板腺人工标注数据量限制的问题,本文提出
学位
对比研究了喷丸和喷丸与振动光饰复合处理对GH4169高温合金疲劳性能的影响,利用扫描电子显微镜、粗糙度仪、显微硬度计、X射线应力测试仪分析和测试了试样的表面形貌、表层组织、粗糙度、显微硬度、残余应力场,探讨了表面完整性与疲劳性能的内在联系及作用机制。结果表明:复合处理对GH4169高温合金疲劳性能的改善效果比单独喷丸强化处理更好;复合处理使GH4169高温合金的室温疲劳强度提高了21.6%;500
期刊
隐式篇章关系识别旨在根据可靠的论元语义表示和有效的关系分类特征,推断出两个论元之间的篇章关系。该任务由于缺少显式推理线索,通常需要借助上下文信息、论元中的关键信息以及论元之间的交互信息,获得可靠的论元语义表示,从而形成基于语义深度理解的关系识别方法。然而,现有关系识别模型在表征论元语义时仍然受制于如下三项挑战,包括1)论元片段不完整造成语义缺失;2)上下文噪声信息误导论元的语义编码;3)论元的关键
学位
知识图谱为海量非结构化数据提供了一种组织、管理与理解方式,广泛应用在智能问答等人工智能任务。知识图谱表示学习模型通过编码映射的方式捕获三元组语义信息,使其更好地服务于人工智能应用。而补全实体和概念之间的链接不仅增强图谱完备性,还能反哺知识图谱表示学习模型。近年来知识图谱表示学习研究大多从单视角出发,将实体和概念看做相同的节点,这样不利于充分刻画实体和概念之间数据规模和拓扑结构的差异。而已有的双视角
学位
属性级情感分析是一种细粒度的情感分析任务,针对商品评论,旨在分析出用户对于商品某一属性的情感倾向。具体可分为属性抽取与情感分析两部分,其中属性抽取作为其核心子任务一直是性能瓶颈之一。在众多影响抽取效果的因素中有两点极为重要,一是评论文本中噪声信息远多于属性描述,对属性词的发现造成极大干扰,影响属性词的召回率;二是属性词在精确定位时容易产生边界错误,影响抽取准确率。基于此,本文提出了基于范围检测的属
学位
室内智能服务移动机器人正成为机器人行业的焦点。在讨论移动机器人是否能够解决实际问题实现自主运动时,准确定位是是现移动机器人自主导航的核心关键技术。目前,移动机器人定位大多应用场景单一,难以应对实际使用过程中复杂多变的环境,如何让移动机器人面对不同定位问题时高效、准确地完成定位任务是移动机器人迈向智能的第一步。针对移动机器人在室内场景的应用,本文在主流的传感器融合方案上融合光流传感器和超宽带(Ult
学位
为了提高电网的电力传输能力、电力系统的稳定性以及电力流量控制的有效性,本文在以解决电网电压的幅值和相位360°范围内连续性调制并且要求电路结构尽量保持简单为目标的前提下,通过对电路结构的创新并结合矢量合成技术提出了双极性调制360°直接潮流控制器。该电路结构通过并联电网的输入变压器组分别获得相电压与线电压,根据电路工作原理,通过给出特定的补偿电压相位与幅值并通过串联变压器组反馈到电网中,实现电网电
学位