基于Weka大数据挖掘方法在地震前兆数据处理中的应用

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:bencui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息技术和互联网技术的快速发展,各行业的数据信息迅猛增长,对于地震的相关科研趋势亦是如此,继而使大数据和大数据挖掘技术在地震监测数据的研究领域引起人们的普遍重视。大数据本身蕴含的庞大潜在价值促进了大数据挖掘技术的产生,从具有容量大、多样性、高速更新和潜在价值无穷尽的地震数据中挖掘出具有意义的知识将成为研究的重点。在国家“十五”数字化、网络化改造前兆台网监测系统后,地震前兆数据的产出大大激增,半人工的传统数据处理方法已经不能满足实际的工作需要。本文主要以太原市2011-2016年地震前兆形变数据为数据挖掘对象,以大数据挖掘的基本思想方法,主要开展以下两项研究内容:首先,对于前兆数据预处理,利用基于JAVA开发的开源的数据挖掘软件Weka工具,主要重新安装设置了Forecast环境,其原理主要为时间序列的前兆数据按其趋势建立模型来补充小数量的缺失数据,计算出的数据本为预测数据,此方法将预测结果作为插值数据,对于地震前兆数据的预处理工作具有促进作用。其次,本文有效采用了Weka便利的开放特征,针对地震前兆数据测项特点,将适用大数据特征的DFCM(基于密度函数加权的模糊聚类算法)通过工具MyEclipse植入到同是JAVA开发的Weka运行环境中,在Weka工作界面内充分发挥该算法的作用,将各个测项数据进行客观模糊聚类分析,最终得出以下结论:首先,针对前兆各个测项数据变化复杂多样、易缺失的情况,数据预处理部分重点研究了时间序列插值处理方法,设置利用的Weka-Forecast插值法对缺失数据进行处理,并和行业其他研究成果的插值结果进行比较,比较的标准是通过平均标准误差的大小,结果说明Weka-Forecast插值法较其他常见插值方法适用性更好,重点是插值原理适用时间序列的前兆数据且操作简单。其次,地震前兆数据在Weka中的聚类分析得以实现,植入的模糊聚类算法通过改变参数寻找相对良好的并符合实际意义的聚类结果。实验数据中,大部分测项数据可以被检测出异常数据,与半人工的检测标准对比,其准确率良好。本文创新点在于地震前兆数据的大数据挖掘研究是时代发展必然需求,从聚类分析方法入手,挖掘出尚未被认知的规律或者对已有规律的新认知,利用这种新思路、新模式,结合有效的数据挖掘工具,并能初步尝试实现这种思路的具体分析过程,最终根据前兆数据的具体意义,确认发展规律,对于以前兆数据为基础研究的科研问题具有一定意义。
其他文献
引起全球气候变化的CO2、CH4等温室气体是全球碳循环中的重要部分。针对碳循环中碳收支不平衡的问题,研究表明,岩石风化过程吸收的CO2是全球碳循环“遗漏汇”中的一部分。掌
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
自治区政府机关事务管理局是承担自治区人民政府直属机关后勤服务保障工作的部门,近年来,随着后勤服务社会化程度不断提高,机关服务工作职能不断弱化,干部成长渠道单一,在较
G蛋白偶联受体(G-protein-coupled receptors,GPCRs)家族参与了机体内多种生理过程的调节,是治疗多种人类疾病的主要药物靶点。检测非G蛋白亚基依赖的G蛋白偶联受体的内吞可用