流数据聚类算法优化与基于模糊多准则决策的性能评估的研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:yufs80131234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的高速发展让世界实现万物互联,同时也导致数据量呈指数倍快速增长的情况发生,并且与传统静态数据不一样的是,现在的数据具有实时、海量、易失等特点,我们称之为流数据。传统的聚类算法无法满足对这种流式数据的处理需求,所以,流数据聚类算法的研究变得尤为重要。随着分布式处理框架的出现,处理数据量大且实时的流数据变得越来越高效。同时,不同的聚类算法会产生不同的效果,如何针对某一特定数据类型的数据集合来选择最合适的算法,也是一个研究热点。针对以上几方面的问题,本文的研究工作如下:(1)对流数据聚类算法进行分析,研究其基本原理与优缺点,并介绍了其内部具体实现所需的传统聚类算法。分析了聚类有效性评价指标以及分布式计算平台。同时介绍了模糊多准则决策方法,包含模糊集、聚合算子、权重方法等内容。(2)针对CluStream算法存在的问题对其进行改进,提出了DD-CluStream算法,其中在线部分采用两阶段聚类的模式,分为远程节点聚类与中心节点聚类,并用基于密度的DBSCAN算法代替k-means算法。引入滑动窗口以及衰减函数,淘汰过期数据,为微簇赋予权重,降低旧簇对新到达数据的影响,并在每个窗口结束时由中心节点进行自适应调整,删除过期微簇和离群点数据,以提升聚类的效果。同时,在其离线宏聚层部分,通过基于密度峰值的DPCA算法来代替k-means算法,降低聚类结果的不稳定性,提高结果的准确度。(3)将DD-CluStream算法部署在Storm平台上进行并行化处理,并与其它三种流数据聚类算法进行比较,通过在分布式平台下聚类的执行时间、不同线程下的处理压力以及多种聚类评价指标值,验证算法在Storm平台下聚类的有效性以及分布式平台对流数据处理的优势。(4)建立算法评估与选优模型。将聚类有效性评价指标构成的评价矩阵用Pythagorean模糊集来表示,同时,通过离差最大法的客观权重与依据专家先验知识给出的主观权重组合成的综合权重为评价指标赋予不同的权重。然后根据基于Pythagorean模糊加权MSM聚合算子的决策方法对评价值进行聚合,并根据评分函数与准确率函数得出最终的综合评价值,以此来验证DD-CluStream算法的有效性以及针对某一数据集选择最优的聚类算法。
其他文献
国家大力发展核电的政策,已经成为保障国家能源安全,实现碳达峰碳中和目标的重要手段。核电发展的一个重要主题是核电安全问题。核电一回路主管道作为核一级设备的关键部件,关系到核电机组的安全稳定运行,其复杂的服役环境以及长达60年的设计寿命,对主管道材料的成分设计及其组织性能提出了很高要求。本文设计了两种新型的奥氏体不锈钢,并制备实验材料与常用材质316LN对比研究了其主要力学性能和腐蚀性能。通过Ther
学位
随着新一轮科技革命的到来,技术迭代和产业变革正在快速发生,技术间的相互渗透、学科领域的交叉融合使得如何准确识别关键技术领域,尤其是颠覆性技术领域内的核心技术主题,有效提取技术演化轨迹并实现进一步的演化趋势预测成为一项极具挑战且异常重要的任务。通过对颠覆性技术以及技术演化路径识别等相关的重要文献的阅读与梳理,本文首先探讨总结了现有关于颠覆性技术和技术演化轨迹识别研究的局限性,发现存在包括数据源单一、
学位
本文研究在明确网络攻防靶场技术应用现状的基础上,根据网络攻防靶场的关键技术,提出了适用于电网环境的网络攻防靶场实战核心系统,而后明确了未来网络平台研究应用网络攻防靶场平台的发展方向,以期从根本上保障电脑系统运行的信息安全,解决传统互联网系统运行面临的安全问题。
期刊
钢中添加稀土Ce具有多种作用且效果显著,稀土钢逐渐成为研究的热点课题。在含Ce稀土钢冶炼过程中,钢液与耐火材料之间不可避免的发生一系列复杂的元素扩散和化学反应,严重危害耐火材料结构稳定性的同时,也对稀土钢的洁净度产生不利影响。此前大多研究集中在钢中添加Ce的作用,或是单独研究耐火材料与钢液的相互作用,而考虑钢中稀土Ce与耐火材料反应的研究比较少,因此本论文以含Ce稀土钢生产过程中钢包和中间包用镁碳
学位
随着城镇化的不断进行,城市建筑系统不仅积累了大量的资源,而且还产生了大量固体废弃物,造成了土地资源占用、空气质量的恶化等一系列环境问题,是城市系统资源环境问题发生的主要“热点”。为有效地监测和管理建筑系统资源的使用和废弃物的处理、实现城市可持续发展,本研究通过对城市建筑系统物质存量和流量分析,刻画城市建筑系统物质的时空分布格局,揭示建筑系统物质代谢规律,探索城市建筑系统演变路径,识别建筑物质存量变
学位
癌症是世界上死亡率最高的疾病之一,几乎所有类型的癌症都是造成死亡的重要原因,如何在早期识别出癌症的致病基因是当前重要的任务。随着大数据时代的到来,生物组学数据的泛滥导致基因组数据多而杂,因此对癌症基因组数据进行特征选择尤为重要。但如今传统的特征选择算法处理癌症基因数据将会导致保留特征数量较多和特征分类精度不高问题,深度学习的出现使得面对癌症基因进行特征选择得到进一步发展。深度特征选择算法可以直接描
学位
贝氏体钢轨中的成分偏析对力学性能影响较大,尤其是严重影响塑韧性,并导致钢轨的各向异性。在铁路不同路段和不同环境下,磨损程度差异较大,除了环境以及受力方面的影响外,与贝氏体钢轨钢的内部偏析组织也有一定的关系,而国内外对此鲜有系统研究,因此,有必要进行偏析对磨损性能的影响和组织演变的研究。本文以实际使用的含有成分偏析带的贝氏体钢轨(0.21C-0.87Si-2.32Mn)为研究对象,通过摩擦磨损、冲击
学位
近年来,由于能源的短缺,核电事业蓬勃发展,核电主管道材料也日益更新。核电主管道长期服役于高温、高压水环境中,是核电站重要的抗压装置和传输能量的通道,因此对主管道材料的性能方面有着严格的要求。本文以304HN奥氏体不锈钢主管道试验件为研究对象,通过电弧炉粗炼+钢包精炼炉精炼+电渣重熔工艺方法生产电渣锭,用水压机将电渣锭自由锻造成毛坯,并通过改锻、固溶处理试验将其处理成不同的晶粒度级别的试验料。探究晶
学位
孪生诱发塑性(Twinning-induced Plasticity,TWIP)钢具有优异的强塑性、良好的成型性及较好的抗撞击能量吸收能力等优点,受到人们的广泛关注。然而TWIP钢屈服强度较低,限制了其在工业上的广泛应用,如何提升其屈服强度是目前TWIP钢发展过程中需要重点关注的问题。本文以Fe-Mn-C及Fe-Mn-C-Si钢为对象,通过冷轧及温轧变形的方式,调控初始组织中的孪晶和位错等缺陷含量
学位
Fe-Ni基合金(32%-36%Ni)具有较低的膨胀系数,可用于制造精细的仪器仪表、电子器件等领域,然而其强度较低,可以通过第二相强化的方式来提高强度,本论文通过在Fe-33Ni合金的基础上添加质量分数为6%的Al,获得成分为Fe-33Ni-6Al的合金,Al的添加会引起组织发生变化,生成NiAl系的金属间化合物,同时可以使合金减重,使用金相显微镜、扫描电子显微镜、透射电子显微镜、X射线衍射仪研究
学位