基于类核的流数据聚类及其演化研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:l7821744
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流数据是一种具有快速产生、一次处理、不断变化和无限等特点的数据序列,这使得传统的数据挖掘手段难以适用于数据价值分析。挖掘流数据中潜在的数据分布,分析其演化规律,从而发现其中隐藏的数据价值成为了一个有待解决的问题。针对上述问题,本文以流数据为研究对象,对具有演化特性的流数据潜在的数据分布和演化规律进行了深入研究。本文的贡献主要包括以下三个方面:首先,针对现有的流数据聚类方法不能反映具有重复出现价值类别的问题,提出了一种实时流数据演化聚类算法。该算法首先通过构建类核模型刻画类别的关键信息,实现检测重复出现的类别;其次建立了权重动态衰减模型,根据微簇的时空特征动态调整不同微簇的衰减速率,正确发现聚类演化。实验结果表明所提方法在保证聚类质量的前提下,能够实时发现具有重复出现特性的价值类别;同时类核模型的构建在聚类运算时间方面提升了10%,为更大规模的聚类分析和价值发现提供了扩展空间。其次,针对现有的流数据聚类算法对流数据中不同类型的演化活动难以捕获和演化过程难以解释的问题,提出了基于类核的流数据演化分析算法。该算法使用类核模型刻画了相邻时间片类别之间的不变性,从而为流数据的演化分析提供了有效表示;然后定义了6种演化类型,覆盖了流数据演化的全生命周期。实验结果表明,该算法可以获得高质量的聚类划分,成功捕获流数据中不同类型的演化过程,从而为流数据的演化趋势预测提供重要的参考依据。最后,结合本文研究内容设计并实现了大数据演化分析系统。该系统主要包括流数据实时聚类和演化分析等功能。实时聚类是通过模拟流数据的产生过程,根据算法配置的规则和参数完成新到达数据与当前数据的匹配合并以及旧数据的淘汰与删除工作。演化分析主要是对不同时刻流数据中的类别和分布进行实时统计分析,以表现其动态演化的特性。最后通过提供数据的详情分析来展示流数据的类别分布以及演化情况。通过对流数据聚类和演化分析过程的可视化展示,从而验证了本文所提方法的有效性。综上所述,本文针对流数据中不断变化的数据分布以及流数据的演化过程展开研究,分别提出了实时流数据演化聚类算法和基于类核的流数据演化分析算法,最后设计和实现了大数据演化分析系统。通过使用不同数据集和方法进行实验对比分析,证明了本文所提方法的有效性,为大数据的价值发现与评估提供了参考依据,具有重要的理论价值和应用前景。
其他文献
睡眠质量决定人们的精神状态,长期失眠会严重影响人们身体健康,并且导致记忆力下降。本文综述了五味子、人参、酸枣仁、玛咖、茯苓、苹果、枸杞、刺五加、银杏叶等常见的药食同源物质改善睡眠和记忆的功效。
期刊
温稠密物质(WDM)是天体物理和惯性约束聚变(ICF)等领域研究的重要内容之一。考虑到温稠密物质中电子部分简并、部分电离特征,电子的量子效应和电子离子的非绝热碰撞都成为影响温稠密物质性质的重要因素。本文采用电子力场方法(EFF),考虑电子离子耦合动力学,研究了非绝热效应对温稠密物质电子离子输运性质的影响。首先,计算了温稠密氢的离子自扩散系数。对比电子力场方法与第一原理分子动力学模拟结果发现,非绝热
学位
目的:对检测杏仁露中蛋白质含量的凯氏定氮法条件进行优化。方法:以蛋白质含量测定结果为指标,采用单一变量法优化半自动定氮仪测定杏仁露中蛋白质含量的最佳条件。结果:优化后的条件为取杏仁露5 g,加入硫酸铜0.3 g、硫酸钾2 g、硫酸10 mL,炭化后继续加热消化40 min,蒸馏后加入氢氧化钠溶液50 mL。测定结果均采用3份平行样的平均值,3份平行样的RSD均小于0.5%。结论:优化后条件检测杏仁
期刊
近年来,深度学习技术发展迅速,在计算机视觉、自然语言处理等领域得到广泛应用。伴随深度神经网络模型的性能提升,模型的参数量、计算量也有了显著的增长,单个计算设备的性能已经不能满足大模型、大数据下的训练需求,分布式训练成为加速深度神经网络模型训练的必要手段。然而,现有的分布式训练优化技术主要针对计算机视觉领域的稠密模型,不能有效应用于稀疏模型的分布式训练。稀疏模型广泛应用于自然语言处理、推荐系统等多个
学位
脑肿瘤属于一种恶性程度非常高的疾病,它往往会对患者躯体和认知引起复杂的损害。脑肿瘤患者脑部MR图像的有效分割往往能帮助医生对患者做出正确的诊断和治疗。通常,脑部的MR图像拥有T1,T2,T1C,FLAIR四个模态,但在实际的临床实践中,因受到设备等条件的限制,病人往往仅拥有部分模态,从而造成了脑肿瘤分割不精确的问题。因此,基于缺失模态脑肿瘤MR图像自动分割研究对于脑肿瘤患者的病情诊断及治疗具有较为
学位
为比较两种氟苯尼考注射液的药物代谢动力学,选择30只健康鸡随机分为两组,分别单剂量20 mg/kg bw肌内注射受试制剂和参比制剂,于给药后0.167、0.33、0.5、0.75、1、1.5、2、4、6、8、12、24、48 h翼下静脉采集血样。用超高效液相色谱法(UPLC-UV)测定血浆中氟苯尼考的含量,并用WinNonlin 8.1非房室模型计算主要药代动力学参数。结果显示,受试制剂和参比制剂
期刊
期刊
传统计算机中存储与计算分离的体系结构是形成“冯·诺依曼瓶颈”的根本原因,而大数据时代的到来使得这一问题日益突出。忆阻器(memristor)因其结构简单、尺寸可缩小性好、读写速度快、擦写耐受性高、具备多维存储能力等优点受到广泛关注。根据忆阻器的阻变特性以及基尔霍夫定律和欧姆定律,可以直接利用忆阻器的状态构建逻辑计算,这种状态逻辑实现了数据存储与计算在物理单元上的融合,是打破“冯·诺依曼瓶颈”的有效
学位
阐述轨道交通系统的特性,轨道交通安防系统的框架,包括同源架构平台集成、异构平台集成,探讨轨道交通智能安防运营的场景。
期刊
<正>随着新课程改革的持续深入,人们对教育的关注已经不再局限于对外在规模发展的重视,而是逐渐认识到教育教学质量的重要性,强调转变机械训练、填鸭式教学,促使学生能够在学习过程中真正获得新知识获取能力、问题分析解决能力以及合作交流能力。2021年教育部明确表示,作业管理是教育改革五项管理之一,同时针对作业做出了明确规定,强调教师与学校都必须充分展现作业的育人功能,减轻学生过重的学业负担。
期刊