基于Apriori关联规则算法的消防大数据分析

来源 :今日消防 | 被引量 : 0次 | 上传用户:dreamrain1220
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文以消防大数据平台为基础,利用Hadoop程序模块,展开消防大数据分析,研究Apriori关联规则算法模型;并且提出了基于Apriori关联规则算法视角下,分析消防大数据之间的内在关联,力图挖掘火灾发生因素之间的关联,最大程度地减少火灾发生。
  關键词:Apriori;关联规则;消防;大数据平台
  1引言
  在社会经济发展进程中,城乡一致性建设步伐稳定前进,伴随着消防力量式微,给消防部队防火作业与灭火工作发起了新挑战。在消防信息化建设水平日益提升的科技时代背景下,国内消防数据以惊人之势迅速翻倍。消防数据的有效采集、科学存储、数据资源的综合利用,成为当务之急。
  2Apriori关联规则算法模型
  第一,消防大数据集合,将其中1阶项数据集合全部筛选出来;依据预先设定的最小值aiR,甄别1阶项中的频繁数据项集合,以最小值支持度阀值为参考,标记为I1;重复上述操作,计算2阶候选集C2;筛选满足条件的2阶频繁数据项目集合,标记为I2;重复统计数据,直至标记的数据项目集合IK-1,其所对应的候选集为Ck,候选集中的所有项目集合支持度均小于min,即频繁项目集合不再产生。
  第二,在数据不断重复迭代过程中,候选项目数据集合、置信度判断分析,二者在进行时,涉及到两个概念:连接、剪枝;Apriori算法的核心性质为:任意一个项目集合属性为频繁,其中所有子集的属性为非空、频繁;连接是指Ik生成CK-1候选集时,采取的是Ik自身连接方式,连接条件为:K项集合中,k-1项之前的数据相同,从第K项开始不同;其中自身连接是构成长度最大的项集,利用已知频繁项集数据系统,实现减少计算量,获取高概率的频繁项集。在连接过程中,非频繁候选项集的处理工作,应用的是剪枝概念;剪枝是处理非频繁项子集的关键操作。
  第三,推导强规则。针对每个频繁子集I,筛选其项集中的非空真子集;l与子集l之间的形成的关系为:I=I-I;计算规则R的置信度:conf(R):sup(I)/sup(I);如若conf(R)值、置信度最小值,二者之间的关系为前者不小于后者,则认定R为强规则。
  3基于Apriori关联规则算法的消防大数据分析方法
  3.1消防云上搭建Hadoop大数据cluster
  在省级消防数据系统云端上,利用云管理工具开辟计算空间,开辟数量为3;在三个节点空间上,安装JAVA数据工程,配置工程运行所需的环境变量,搭建工程环境,具体使用的是:javaverslon 1.8.0141,安装版本为Hadoop 2.7.3。为数据工程配置集群文件,为其提供数据基础性文件内容,辅助其良好运行:etc/hadoop/core-site.xml,etc/hadoop/slaves.etc/hadoop/hdfs-site.xml,etc/hadoop/yam-site.xml,etc/hadoop/mapred-site.xml。启动Hadoop程序,查找进程运行机制,确定主节点yuhl位置,主节点包含:ResourceManager、SecondaryNameNode、NameNode;非主节点进程有:DataNode、NodeManager;搭建好主节点与非主节点的运行程序,完成消防云大数据环境搭建。
  3.2Apriori算法实现
  在Apriori的算法基础上,结合MapReduce模型;MapReduce是一种编程模型,用于大规模数据集的并行运算,大规模数据集的数据大小为:1TB,此编程模型实现了至少1TB数据集的并行运算,具有计算高速率、数据准确性的特征;Stringterms[]=value.tostring().split(“,”);在C++、java编程语言中,String类是不可更改的,具有绝对的稳定性,如若采取措施试图改变String类,将成立新的String类对象;编程中利用String类,来保障消防云系统上数据的绝对稳定性与精准性,防止数据恶意更改现象发生,减少人为操作失误,每一次数据更改操作,在系统中均有详实记录,实现了消防数据的智能管理。
  第一次计算输入map的关键词key为“火灾标识”,value值代表的是“火灾因素”,值之间以逗号向分隔;输出新的标识key为“火灾因素”,value值取值1,输出计算结果;采取re-duce计算方式,输出火灾因素标识为key;将value作为求和数据,剪去小于aiR数据(aiR在上文中提及为:最小支持度阀值);计算分析火灾因素之间的关联关系。其中reduce方法,是编程中的累加器,依据条件输出结果;对于不符合条件的项目,依据方法配置的具体内容,给予反馈;它是一种具有个性化设置的编程方法,有利于消防数据云平台实现个性化管理;小于min数据值,编写不符合条件时,直接排除数据的语言程序;此方法具有超强智能的数据处理机制,适用于消防大数据分析。
  3.3大数据实例分析
  某省消防云大数据平台中,详实记录了消防出警的全部过程,比如:实施受理、出警人数、灭火市场等数据;从中抽取近3年的火灾数据,时间段截取2013年1月至2017年6月;利用火灾数据,建立大数据实例集;考虑到数据的保密性质,将火灾因素以数字代替,一方面有利于数据分析,另一方面维护消防数据安全,保障国内社会经济稳定发展;火灾因素数据为1,2,3,4,5;火灾类型名称的数据为D100,D200,D300,D400;min值定为0.5。
  数据分析,因素1出现频率为2次,因素2出现频率为3次,因素3出现频率为3次,因素4出现频率为1次,因素5出现频率为1次;数据实例集为:C1:{{1}:2,{2}:3,{3}:3,{4}:1,{5}:3};实例集所对应的Support支持度值分别为:0.5、0.75、0.75、0.25、0.75;剪去小于min=0.5的数值,最终得出的数据集合为F1:{{1}:2,{2}:3,{3}:3,{5}:3}。   在F1数据集基础上,开展第二次计算;输入数据因素1和2,二者共同出现的频率为1次;输入数据因素1和3,二者共同出现的频率为2次;输入数据因素1和5,二者共同出现的频率为1次;输入数据因素2和3,二者共同出现的频率为3次;输入数据因素2和5,二者共同出现的频率为3次;输入数据因素3和5,二者共同出现的频率为2次;即数据实例集为C2:{{1,2}:1,{1,3}:2,{1,5}:1,{2,3}:2,{2,5}:3,{3,5}:2};实例集C2支持度为:0.5、0.75、0.75、0.75;C2支持度數值均大于min值,即数据集为F2:{{1,3}:2,{2,3}:2,{2,5}:3,{3,5}:2}。
  C3为第三次扫描,共同出现的数据因素:2、3、5,则实例集C3:{2,3,5}:2,C3的支持度为0.5;得出的关联关系为:频r率值为2时,数据因素3的支持度d为0.5,置信度f为0.66;r=3,数据因素2的d=0.5,f=0.66;r=3,数据因素5的d=0.5,f=0.66;r=5,数据因素5的d=0.5,f=0.66;r=2,数据因素2的d=0.75,f=1;r=5,数据因素2的d=0.75,f=1;r=2,数据因素2的d=0.75,f=1;r=2,数据因素3、5的d=0.5,f=0.66;当数据因素出现3、5时,出现数据因素2的d=0.5,f=1;当数据因素出现3时,同时出现数据因素2、5的d=0.5,f=0.66;当数据因素出现2、5时,出现数据因素3的d=0.5,f=0.66;当数据因素出现5时,同时出现数据因素2、3的d=0.5,f=0.66;当数据因素出现2、3时,出现数据因素5的d=0.5,f=1。
  3.4实例分析
  假设f的最小值为0.8,则:①数据因素2、5的同时发生概率p为0.75,发生因素2时,间接发生因素5的概率p1为1;②2、5同时发生p=0.75,先发生因素5,间接发生因素2的p1=1;③2、3、5同时发生p=0.5,先发生因素3、5,间接发生因素2的p1=1;④2、3、5同时发生p=0.5,先发生因素2、3,间接发生因素5的p1=1。由此可知,火灾数据因素之间存在关联关系,应加强防护措施,减少火灾带来的经济损失。
  4结语
  综上所述,引起火灾的数据因素较为复杂,涉及因素广泛,比如气象、建筑属性、人员习惯等,如若将诸多因素共同例入Apriori关联规则算法的实例项目集合中,需要更为专业的技术给予支持,来完善项目集合,寻找火灾因素的关联关系。
其他文献
2007年,全省交通工作以科学发展观为统领,推进国省道干线公路升级改造和农村公路两个建设,抓住交通结构调整和转变发展方式两个关键。完善建设和运输两个市场,依靠改革和创新
随着科学的发展、社会的进步,PLC作为自动化领域的主流控制系统,其优势也日渐凸显,但是随着控制对象的逐渐复杂化,要将先进控制融入到PLC当中,本文通过对 PLC模糊控制器的研究应用
随着社会经济的发展,军民融合经济的发展已经逐渐成为国家经济发展战略中的重要组成部分.在中共十九大中,有关国民经济、党政党风建设、科学技术发展等等方面做出了指导分析.
目的:探讨临床医师对临床医学课程设置的态度和意见,促进医学课程改革。方法:应用《临床医学专业课程设置调查表》对河北省唐山市3所大型综合医院809名临床医师进行了问卷调查。
本文基于工程设计角度建立了翼型表面圆率与压力分布的定性关系,提出一种直接修改翼型点的圆率分布进行翼型压力分布设计的方法。本文方法将翼型设计和圆率结合在一起,可用于翼
随着客户对集装袋性能要求的不断提升以及新技术的创新运用,网状隔板拉筋防漏技术应运而生,突破了传统技术工艺框架要求,大大提升了集装袋的使用性能,本文就网状隔板拉筋防漏
本文重点研究了不同配比的(NbSe2+SiC)/Cu基自润滑复合材料在不同环境下的摩擦磨损性能,对复合材料磨痕表面形貌、磨损颗粒的成分组成及形貌进行分析,并探究了(NbSe2+SiC)/Cu
目的:探讨静脉免疫球蛋白联合热毒宁治疗重症手足口病临床效果。方法:选取我院2014年6月~2015年11月入院治疗的36例重症手足口病患儿作为研究对象。按照入院顺序随机分为ABC
伊维菌素是一种高效、广谱、安全的抗寄生虫药物,一次投药可同时驱杀体内外寄生虫,为减少投药次数,节省劳动成本,更好地发挥此种药物的优点,对这种优良药物剂型的研究开发成
作为世界的第一大军事国家的美国,最先在世界上提出网络战概念,并且在军事行动活动中将其应用于实战之中.本篇文章将分析美国网络军事战略提出的背景及其演进,剖析美国军事战