基于Hadoop的桥梁监测数据孤立点挖掘研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:wyswyswys
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
桥梁是公路交通的重要组成部分,保证桥梁的运营安全极为重要。桥梁健康监测是一种通用的管理办法,监测数据处理是其中的一个核心内容。随着时间的推移,桥梁监测系统会累积越来越多的数据,而传统的数据处理技术在面对日益增长的数据存储与处理时压力越来越大。Hadoop是一种流行的大数据处理平台,它以HDFS分布式文件存储系统及MapReduce计算框架为核心,Hive、Sqoop等工具为枝干,形成了一个完整的大数据处理生态系统,使用Hadoop处理大量桥梁监测数据,具有理论意义及现实价值。数据挖掘是常用的一种数据处理手段,孤立点挖掘是其中的热门研究之一,目前在许多行业与领域如网络入侵检测、天气预报等都有所应用,而在桥梁监测领域,孤立点数据的挖掘研究还没有得到足够重视。本文主要研究基于Hadoop的桥梁监测数据孤立点挖掘方案,研究内容体现在以下几个方面:第一,针对K-近邻孤立点算法开销大的缺点,结合划分思想、聚类思想及最小限界矩阵理论进行了改进,提出一种基于k-均值聚类划分的k-近邻孤立点算法(KMKNN)。该算法首先对数据集进行均值聚类,以聚类结果作为划分依据把数据集分成不同区域,判断每个区域是否包含孤立点,对不存在孤立点的区域进行剪枝处理,最后对包含孤立点的候选区域中的数据进行k-近邻计算,得到孤立点。实验表明,改进算法相比原始K-近邻算法提高了运算效率。第二,KMKNN算法的缺点在于对数据集进行K-均值聚类时,需要给定聚类数目且随机选取初始聚类中心,得到的聚类结果精度不高,使得最终得到的孤立点不准确。因此,对KMKNN算法进行改进,使用Canopy聚类计算初始聚类数目,使用最大最小距离算法计算初始聚类中心,提出一种基于Canopy与最大最小距离算法的均值聚类划分k-近邻算法(CMM-KMKNN)。实验表明,改进算法提高了聚类精度及孤立点精度。第三,由于KMKNN及CMM-KMKNN算法需要对数据进行大量迭代计算操作,算法开销大,因此搭建了一个Hadoop集群实验环境,对KMKNN与CMM-KMKNN算法实现Hadoop并行化。利用并行化后的KMKNN及CMM-KMKNN算法进行桥梁数据孤立点挖掘。实验表明,并行算法提高了数据处理速度,得到的孤立点数据准确。
其他文献
近年来,网站、搜索引擎、微博、微信等新媒体逐渐成为公众获取健康信息的重要渠道。同时,新媒体平台也充斥着许多无益甚至有害公众健康的"伪健康信息"。文章从厘清"伪健康信
<正>【案例背景】音乐能激发情感,开启心智,陶冶心灵,塑造人格,音乐与文学本身密不可分。阿炳坎坷的人生经历,与生俱来的音乐才华,成就了《二泉映月》这首不朽的世界名曲。课
李楼-吴集铁矿生产能力为750万t/a,是国内大型的地下金属矿山之一,大结构采场、高效率无轨开采成为支撑矿山规模化开采的基本手段。李楼-吴集矿山采用两步骤嗣后充填采矿法,
随着大量优良品质非线性晶体的涌现及外加电场周期性畴极化技术的成熟,非线性光参量放大及振荡成为实现宽波段激光可调谐输出的主要技术手段。非线性光参量变换技术的研究得
在融媒体时代下,电视媒体想要实现发展,必须在结合传统发展方针的基础上,对内容进行创新和完善。以高品质的内容,维持自身竞争发展优势,巩固自身的地位,达成创新发展的战略目
苹果嫁接是育苗、建园、更新品种等农业生产活动中不可缺少的技术措施,具有时令性强、劳动强度大等特点。到目前为止,苹果嫁接作业仍然采用传统的手工方式。为适应现代化农业
古建筑是人类历史文化传承的重要载体,我国具有丰富的文物古建筑资源。千百年来,在自然营造力和人类活动的破坏下,古建筑出现了风化酥粉、缺损、空鼓、裂缝和泛碱等病害,严重
目的制备天然属性的抗角蛋白单克隆IgM抗体。方法取饲养在无特殊病原体条件下BALB/c小鼠的脾细胞,直接与SP2/0细胞融合。以提取的角蛋白抗原对阳性杂交瘤细胞生长孔进行ELISA
近年来我国的汽车需求不断增长,对于汽车发动机生产制造过程的自动化要求越来越高,自动化装备和自动检测系统的应用,大幅提高了产线上的自动化水平和产品质量。但目前,发动机