大数据集序列模式挖掘算法分析

来源 :科学与财富 | 被引量 : 0次 | 上传用户:nj_lcj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:大数据时代背景下,网络技术和数据技术的使用非常关键,对于社会发展也起到了重要的作用。本文笔者针对大数据集序列模式挖掘算法进行了分析研究,文章中阐述了大数据以及序列模式挖掘,并针对BLSPM算法进行试验和结果分析。
  关键词:大数据;BLSPM算法;序列模式挖掘
  1 大数据和序列模式挖掘的概念
  1.1 大数据的概念
  大数据是信息社会发展过程中形成的数据集合,其发展的背景信息化技术。计算机技术问世,其两方面技术应用最为广泛,其一是数据运算,其二就是数据信息管理,能够实现数据的储存和分析。而随着社会技术的发展,数据量也不断增加,当前在社会发展的过程中,信息技术开始逐渐朝向数据技术发展,形成了大数据技术。大数据当前而言主要包括两个方面。其一,是数据处理储存量不断增大,计算机技术中数据处理的单位从MB已经达到了ZB,其数据变化巨大,并且相关数据专家预测,数据技术的储存容量还会继续增大10倍甚至20倍。另外一方面,大数据技术应用于数据分析,其中包括数据库分析、数据关系分析以及数据结构分析等,数据分析技术在当前社会中应用更加广泛,其具体分析过程中还包括数据采集、数据导入、数据统计以及数据挖掘等多个技术部分,对于数据的分析处理有非常重要的作用。在未来,数据容量更大,數据采集技术更加先进、数据挖掘也将会被更多的应用,大数据将会对世界带来重大的改变[2]。
  1.2 序列模式挖掘的概念
  序列模式挖掘是大数据背景下对数据挖掘的重要技术模式,在当前社会中的应用非常广泛,信息市场调研、预测天气变化、市场变化趋势、网络网站访问模式等。在序列模式挖掘具体应用的过程中,是在序列数据库当中将子序列频繁出现作为数据的挖掘模式进行数据分析,能够实现数据挖掘分析的精度提升。应用较为早期的序列模式挖掘算法为Apriori,其在计算中使用到关联性原则,而随着现代社会中数据量的逐渐增大,所以在实际的社会应用中Apriori算法应用精度较差,所以现代社会发展中,急需一种适应社会的序列发展模式,保证数据使用更加高效。
  2 大数据集序列模式挖掘算法
  2.1 BLSPM算法和实验结果
  BLSPM是一种新式序列模式挖掘算法,其发展的前身是PrefixSpan算法以下是对该算法进行的分析研究。在BLSPM算法中,提出了利用隔层投影和剪枝策略的相互合作数据挖掘计算模式,可以减少数据库处理中的投影数据量,并完成对最小支持度数据序列模式的剪枝删除,从而保证数据分析更加精准。
  为了研究BLSPM算法,本文针对算法应用进行了具体的试验,试验中设立数据库为S(图1),并且设置为min_sup=2。以下是对BLSPM 算法挖掘记性的相关阐述。1.初始挖掘运算中,数据库开始完成对1个长度单位的序列模式进行查找,查找过程中对BLSPM序列集进行全盘扫描,挖掘频繁序列模式以及非频繁序列模式,并对费频繁序列模式进行减除。2.实际的数据挖算法中利用序列集中的频繁序列项作为X轴和Y轴,从而构建形成M矩阵。以下图2为S矩阵构建图。通过矩阵图构建能够完成对数据的有效采集,从而保证数据处理更加高效。
  3.利用序列模式数据库进行子集查找。支持度不小于 2序列模式在数据集中查找,递归地挖掘频繁序列的子集。4. BLSPM算法中第四部是对两部分进行重复查找和执行,并对所有的长度频繁序列进行集合,从而保证频繁序列集合查找更加精准。5.是BLSPM算法的最终结果步骤,其中包括频繁项目集的序列模式并将进行排序。以下表三为最终序列图。
  2.2 基于Map-Reduce的BLSPM算法和结果
  基于Map-Reduce的BLSPM算法也是当前BLSPM算法的发展,在其行和具体计算的过程中其计算主要分为以下几方面内容;1.数据分片是BLSPM算法中的重要组成部分,在实际的计算过程中,选择将BLSPM的大数据集进行分部,将其分部成连续性的数据片,从而做好数据分类。2.数据并行计数。数据并行技术也是利用大数据库进行扫描,实际的计算过程中,选择利用Map-Reducwe型进行序列支持度计算,计算全局的长度为 1 的频繁项集Flist。3.建立三角矩阵。在Map-Reduce的BLSPM算法中,也是利用Flist1 中 n 个序列进行三角矩阵设计,分别建设X轴和Y轴。4.均衡分组设计。均衡分组设计是在实际的计算过程中,选择使用到负载均衡策略进行序列模式分组,制定成为新Glist数据表。5. 在Map-Reduce的BLSPM算法中选择使用并性挖掘技术对大数据集中的组别进行划分,利用Glist数据表进行并行数据挖掘,也选择使用Map-Reduce软件来完成第二阶段的数据挖掘,完成对序列集的数据挖掘和计算。以下是Map-Reduce软件的数据计算代码。
  Input: key is the number of each shard, value is T
  Output: <key=item,value=1>, where key is the item of T ,value is the number of item
  Begin
  String str= value.toString();
  While(str.hasNext())
  {
  Item=str.next();
  //输出<key,value>
  Context.Write (item,1);
  }
  End
  3.结束语
  本文以具体试验详细阐述了BLSPM算法与Map-Reduce的BLSPM算法的计算过程,希望能够对大数据集序列模式挖掘算法的发展有所帮助。
  参考文献:
  [1]曾毅, 张福泉. 基于多效用阈值的分布式高效用序列模式挖掘[J]. 计算机工程与设计, 2020, 041(002):449-457.
  (河北省信息资源管理中心  河北  石家庄  050000)
其他文献
摘 要:隨着市场经济的发展,企业越来越重视内部审计。内部审计是企业管理的重要组成部分,与企业的根本利益一致,可以促进本部门本单位经营管理和经营效益的提高。目前,部分企业存在内审机构不完善、制度不健全、范围过于狭窄、方法不够科学、内审人员专业能力较差等问题,致使内部审计难以发挥对企业的监督评价作用。因此,根据企业实际,对问题进行了认真梳理和分析,针对存在问题提出了相应的解决对策。  关键词:内部审计
期刊
摘 要:本论文引进1进制,引用科学家正在证实或已经证实的所谓的上帝粒子(1)来证明宇宙的起源,从这个角度来对宇宙做一些我个人的认识与思考。  关键词:进制;光;电;物质;宇宙;磁场  Abstract : This paper introduces the Base 1 system,Use The so-called God particle (1) that scientists are co
期刊
摘 要:随着经济发展模式的转变,知识与科技成为经济的主导,加快了知识经济时代的到来。在这种环境下,企业管理面临着新的变革,其管理模式和管理制度也要发生改变,这样才能适应时代的发展。本文将对知识经济下的企业管理变革进行分析,希望可以为相关研究提供有价值的参考依据。  关键词:知识经济;企业管理;新变革  近年来,科技产业和信息产业已经成为知识经济时代的主要产业,对促进企业的发展有着重要的作用,同时也
期刊
摘 要:企业在发展过程中,需要重视内部的控制和预算管理的相关问题,同时在开展工作期间,需要有效结合二者,在预算管理的前提下构建内控体系,加强管理体系的改革,并对报告體系进行一定的细化,还要对执行机制进行规定的创新,减少煤炭企业在经营过程中出现的风险几率,推动企业的进一步发展。  关键词:预算管理;企业会计;内部控制  当前很多企业在发展过程中,为了提升自身的市场竞争力,保证产品质量的同时,也会通过
期刊
摘 要:面对我国高中阶段教育发展步伐的不断加快,资金保障无疑是重中之重,而这就意味着学校财务管理工作必须要有先进的工作模式作为支撑,内部控制由此也进入到财务管理人员的视野。文章就立足明确内部控制意识,夯实各项内部控制制度的有效落实;打造系统的会计系统,确保各项资产与信息的安全性;完善高中内部控制程序,确保各项财务工作的有序运行等三个方面,将该视角下的高中财务管理工作模式做出明确论述。  关键词:高
期刊
Abstract: The media is exposed in everywhere around the world, and is the driving force of social development and progress. However, everything has two coins and the media has no exception that media
期刊
摘 要:随着经济和各行各业的快速发展,在企业发展过程中,预测风险、评估风险、降低风险、化解风险等风险管理工作,直接关系到企业是否能健康、有序地发展。目前,大部分企业在进行会计风险管理时,主要是通过“内部审计”来加强抗风险能力。可以说,企业内部审计是促进企业健康发展的安全防线,可以帮助企业识别风险、降低风险,为企业在新时期的健康发展保驾护航。本文从企业会计风险管理中内部审计的地位开始分析,重点探讨企
期刊
摘 要:随着时代的发展,我国大部分家庭开始步入了小康,但是我国仍存在很多人口没有摆脱贫困。2020年是脱贫攻坚关键的一年,如何为我国所有的贫困县摘帽是国家和社会都普遍关注的问题。本文在社会精准治理角度下,以健康问题为切入点对于扶贫机制的建设进行探讨,以期为精准扶贫政策提供一点参考。  关键词:社会精准治理;健康扶贫;机制;构建  自党的十八大提出精准扶贫以来,全国各地的扶贫工作取得了巨大的进展,据
期刊
摘 要:本文以公立医院预算绩效管理为主题展开论述,首先对本文的背景进行了简要介绍,然后重点从多个层面针对这一项工作的具体实施策略进行了分析探讨。  关键词:公立医院;预算绩效管理;发展  公立医院预算绩效管理体系的构建与持续优化,有助于公立医院整体运作成本的有效控制,促进医院现有人力、财力、物力资源的科学配置,并在这一方面工作持续改进中所形成的完善的管理机制,不断提升公立医院的整体管理水平,所以,
期刊
摘 要:由于企业的所有者和经营者都出于对自身利益的追求,就难以避免的产生了利益的冲突、目标的不一致等问题。为了缓和这样的负面影响,上市公司纷纷采用股权激励的措施,将公司的利益和经营者的利益进行捆绑,从而激发企业经营者或者一些核心员工的工作热情,进而为公司的经营与发展贡献出更多的力量。根据上述问题,本文选取了青岛海尔集团,选用2008-2019年的财务数据,运用案例分析的方法对青岛海尔股权激励案例进
期刊