Spark集群环境下的分类数据离群检测及应用

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:carefreebeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
工业大数据时代的到来推动了现代制造业的发展,制造业在发展过程中积累了大量数据。数据挖掘是大数据分析的一种有效途径,其挖掘结果能够应用在机械制造业的生产、管理和运营过程中,促进制造企业优化生产、改进生产工艺以及诊断设备故障等,以降低生产成本和提高企业运营效率。在当前机械产品加工中,由设备性能下降、精度损失、易损件磨损、人因等多种因素造成了隐性问题,一般不容易被发现但却会影响产品的质量。离群检测作为一种数据挖掘方法,可从机械产品加工数据中有效地发现隐性问题。本文在基于内存计算的Spark集群系统环境下,研究了分类数据离群检测理论、方法以及冷轧辊加工数据离群检测的方法,不仅为大数据分析提供了有效的并行离群检测新方法与实现途径,而且也为有效发现机械产品加工过程中可能存在的设备精度下降、检测者资质、加工环境等具有异常特征的隐性问题,提供了一种有效手段。其主要研究成果如下:(1)提出了一种基于特征分组的分类数据离群检测算法——WATCH。该算法通过度量数据特征间的相关性将数据特征分为多个特征组,可以发现隐藏在特征子空间中的离群值,有效提高了离群检测精度,而且可以从不同方面发现特征模式的差异性。实验验证了WATCH算法在精度、效率和可解释性等方面的高效性。(2)针对WATCH算法不足以处理大规模数据的问题,提出了一种基于Spark的并行离群挖掘方法——POS。POS通过并行特征分组和离群检测,有效地将大规模数据集分布在集群的计算节点上;通过RDD缓存和参数调优的并行优化策略提高POS的性能。在Spark集群上实验验证了POS算法的可扩展性和可伸缩性。(3)提出了一种基于互信息的混合属性离群检测方法,该方法采用互信息机制给出了混合属性的加权方法,分别定义了数值型数据、分类型数据和混合属性数据的离群得分,并进行了规范化处理,能够更客观准确地度量数据对象之间的相似性,有效改善了离群检测性能。实验验证了该算法的有效性和可行性。(4)提出了一种基于Spark的互信息并行计算及性能优化方法——Mi CS。该算法首先采用列变换将数据集转换成多个数据子集;然后采用两个变长数组缓存中间结果,解决了分类数据特征对间互信息计算量大、重复性强的问题;其次针对基于Spark的互信息并行计算会发生数据倾斜的问题,Mi CS算法重新定义了数据倾斜模型来量化由Spark创建的分区之间的数据倾斜度,缓解了shuffle过程中出现的数据倾斜,优化了网络性能。(5)以冷轧辊的实际生产数据为应用背景,在详细分析冷轧辊制造过程的复杂性、冷轧辊的典型失效模式和影响冷轧辊生产过程质量因素的基础上,设计并实现了Spark集群环境下的冷轧辊制造过程离群检测原型系统。详细介绍了该系统的数据预处理、环境参数设置、系统架构及系统功能模块。通过离群检测,能够有效地从冷轧辊产品加工大数据中挖掘出制造过程中具有异常特征的隐性问题,从而发现产品可能存在的质量缺陷。
其他文献
液压传动与控制技术广泛地应用在航空航天、工程机械和工业设备等重载机械装备。《液压传动与控制》是本科高校机械工程专业开设的讲授液压传动与控制相关技术的基础性课程,旨在培养学生掌握液压传动与控制技术基础概念、基本理论和典型工程应用液压系统。本文就该课程教学中存在的一些问题进行分析,并提出一些可行的改革措施。
语言是人类的交际工具,是人类认识世界与改变世界的重要方式,其能承载大量的文化信息,促进世界各族人民的相互沟通与交流,增进彼此之间的尊重与理解。语言也代表民族归属与民族认同,其将民族文化聚集在一起,显示出历史的长久积淀。同时,文化需要在沟通过程中得到他人的认可,文化的发展离不开语言传播的力量。只有恰当地运用语言,才能使文化传播保持持久的生机活力,才能扩大文化的影响力。对于语言与文化来说,二者是
期刊
目的:本课题研究以股四头肌锻炼为基础治疗,化瘀祛湿方对膝骨关节炎(KOA)患者治疗前后症状、体征及血清因子的变化,与对照组西药对比进行分析,进一步评定化瘀祛湿方治疗痰湿瘀滞型KOA的作用机理、有效性及安全性,旨在为临床上运用中医中药(化瘀祛湿法)治疗KOA患者提供进一步的参考及临床依据。方法:将与该课题纳入标准相符的40例痰湿瘀滞型KOA患者,按照随机数字表法,随机分为治疗组和对照组,每组各20例
目的:观察壮药复方仙草颗粒治疗Ig A肾病(Immunoglobin A nephropathy,Ig AN)的总体疗效,评估其治疗Ig A肾病的有效性及安全性;同时观察对比治疗前后血液及尿液中白细胞介素-6(Interleukin-6,IL-6)、肿瘤坏死因子-α(Tumor necrosis factor-α,TNF-α)、转化生长因子-β1(Transforming growth facto
经济全球化发展与科技应用技术的发展,不仅推动了经济的高速发展,同时也带动了新闻传播在内的艺术表达形态与创作模式的创新发展,使得全新的艺术观念与传播方式逐步形成。新媒体艺术作为现代艺术表现的一种全新的形式,其真正的形成、发展伴随着计算机技术的发展以及普及。现代信息技术打破了时间与空间的限制,使得的艺术传播更加多元化,不仅丰富了现代艺术的传播途径,同时也将现代艺术的表现力推向了新的
期刊
回答移动互联网时代主持传播的样态,需要从其本体性要素角度分析变动的科技环境下主持实践有哪些主要变革。本文认为主持实践作为一种"仪式化有声语言传播",其传播主体与客体、传播渠道和传受模式等四个要素都具有自身特点。移动互联时代到来后,互动方式、渠道资源和智能化科技等引起了主持传播四要素的适应性变革,产生了主体的平民化转向与唯一性强化、受众会众化、传受中心再造与圈层传播等一系列新景象。
镁合金作为一种理想的轻质合金,在航空航天、国防军工、车辆交通等工业制造领域应用越来越广泛。然而,镁合金熔点较低,热导率及热膨胀系数较高,化学性质活泼、易氧化,使得镁合金在焊接过程中存在诸多难点。作为一种先进的真空焊接制造技术,电子束焊接具有能量密度高、室内真空度高、焊接质量好等优势,可以很好的实现镁合金的深熔透焊接。其焊缝力学性能、耐蚀性能等皆优于其它焊接工艺。然而,采用电子束焊接镁合金时,对焊接
目的:本试验通过患者中医证候评分、血浆NPSR1治疗前后的水平变化来进行加味柴胡桂枝干姜汤与枸橼酸莫沙必利的临床药物疗效观察对比,探讨加味柴胡桂枝干姜汤治疗寒热错杂型功能性消化不良餐后综合征的临床疗效和机制,为临床中医药治疗寒热错杂型功能性消化不良餐后综合征提供新思路及方法。方法:选择2020年3月至2021年3月在广西中医药大学附属瑞康临床医学院的消化内科门诊及国医堂门诊病人中诊断为寒热错杂型功
金刚石作为超宽禁带半导体材料被用于制备耐高温的高频大功率电子器件。此外,金刚石缺陷色心在量子信息处理、生物标记等领域具有广阔的应用前景。其中,关于晶体微观缺陷对器件宏观性能的影响、色心的发光效率与稳定性等研究备受关注。本论文利用拉曼与光致发光(PL)光谱研究了金刚石结晶度、应力分布以及色心的温度、激光功率依赖性;通过电子辐照在纯净、氮、硅掺杂等CVD金刚石中引入孤立的、简单的本征缺陷,并利用退火手
镁合金由于本身密度小、比强度高等优点,越来越受到人们的重视。其管材制品被广泛应用于航空、医疗及光学等领域。我国作为世界第一的镁资源储备大国,是生产及出口原镁的最大国家。但由于国内镁合金加工技术和装备研究起步较晚,高端领域所需镁合金制品仍需大量进口。与此同时,加工技术的落后主要表现在加工成本高和产品质量性能较差,因此,开发研制新的加工工艺是镁合金技术研究的首要任务。本文针对镁合金管材生产提出采用连续