数据挖掘在工会系统中的应用

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:stystill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]随着现代信息技术的发展,计算机已经在越来越多的领域发挥着越来越重要的作用,尤其是数据挖掘技术在各种领域的应用越来越广泛,可以帮助提取客户的行为信息,进行用户行为分析和深度挖掘,目前工会面临着的问题越来越复杂和多变,我们需要根据工会系统中的劳模数据信息进行数据的深入分析,发掘劳模的相关信息和未来发展动向,为工会的决策的预测信息提供帮助。
  [关键词]数据挖掘;工会;预测
  中图分类号:U213 文献标识码:A 文章编号:1009-914X(2018)20-0208-01
  0.前言
  目前工会是由工人自发组织建立的一个工人阶级群众组织,是党组织和工人联系的桥梁和枢纽,是会员和职工利益的代表,所以工会信息在目前的社会具有很重要的研究意义。随着互联网时代的到来,工会也逐步开始采用工会信息系统来记录工会的内部信息,方便了工会各个项目的数据管理,提高了工作效率。工会系统的信息随着工人阶级的增加变得越来越多,而工会也在面临各种各样的问题,所以我们要对众多的工会数据进行详细分析和深度挖掘,探索到隐藏在数据背后的相关联系和事实。数据挖掘的结果不仅可以完善工会目前的问题,同时还可以帮助工作的领导者进行工会的决策。
  1.工会系统建设的可行性
  工会系统的主要是为了帮助广大的工人阶级而建立的信息系统,它主要用来对于工会中工人们的数据信息进行存储,提高了工会的办公效率并且保证了信息的准确性。工会的各个部门之间在业务处理过程中都积累了大量的业务数据,对于这些业务数据进行深度挖掘可以提取相关的业务逻辑,可以帮助领导者进行政策的抉择。目前的数据挖掘技术已经被广泛应用于各行各业中,尤其是以银行类的金融行业用的最为广泛,例如数据挖掘可以通过用户的消费情况进行行为分析来判断该用户是否具有偿还贷款的能力。基于以上的描述,工会系统的建设是非常可行的。
  2.数据挖掘在工会系统应用的必要性
  数据挖掘技术的不断成熟标志着互联网新时代的到来,各行各业都在逐渐将数据挖掘技术应用到自己的领域。信息系统主要用来存储用户的各类业务信息,同时提高相关领域的工作效率。如果我们仅仅将这些数据作为数据集来进行统计,这些数据将会失去很多的业务价值。所以我们将数据挖掘技术应用于信息系统中可以发现业务数据关系背后的价值,根据大规模的数据进行深度分析可以进行未来的预测,调整当前的工会的政策,使得工会更好地服务于广大劳动者。
  3.K-means聚类算法介绍
  目前数据挖掘算法主要包括聚类算法,分类算法,关联规则分析等,对于数据进行深度挖掘,提取有用的价值信息,根据目前应用最广泛的算法还是K-means聚类算法同时也是无监督学习的机器学习算法。
  3.1元素相异度计算方法
  K-means是一种聚类分析的经典算法,聚类就是将整个数据对象在不知道预期目的的情况下进行数据的划分的方法,划分后的各个聚类簇之间差异很大,同类簇之间相似度较高。一个数据对象只能被一个簇所拥有。它主要是通过对两个元素之间的差异度进行比较进行归纳信息。元素相异度的计算方法有很多种,主要包括欧几里得距离,它的定义为d(x,y)=sqrt((x1-y1)2+(x2-y2)2+…+(xn-yn)2),主要表示两个元素在欧式空间中的集合距离,因为欧式距离计算直观并且容易理解,所以在整个算法过程中该距离计算公式被广泛应用。第二种相异度计算方法为曼哈顿距离,它定义为d(x,y)=|x1-y1|+|x2-y2|+…+|xn-yn|,这两种距离的计算方式都是在实际应用比较广泛的。其余的二元变量类型,分类变量类型及序数变量类型应用也很多,由于在本项目中基本没有采用,所以不再做一一赘述。
  3.2聚类问题介绍
  聚类问题简单来说就是给定一个元素集合,其中每个元素具有n个可观察属性,使用特定的算法将这个元素集合划分成K个子集,使得每个子集内部元素之间的相异度尽可能低,不同子集之间元素的相异度尽可能高,每一个子集叫做一个簇。
  K-means算法是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想主要是通过迭代过程把数据集划分为不同的类别,使得聚类性能的准则函数达到最优,这样生成的每个类别内聚性高,而类与类之间则耦合性低,不太适合处理离散型的数据集,对于连续性的数据集具有较好的聚类结果。
  算法的输入为簇的数目K和包含n个对象的数据集。 算法的步骤首先为每一个簇都要设定一初始的聚类中心,然后将数据集的样本按照元素差异度计算方法分配到临近的簇,每一个簇的聚类中心被当前的簇中的元素平均值代替,最后重复以上步骤到聚类中心不在变化。最后得到K个聚类簇。
  4.数据挖掘在工会系统中的应用过程
  本文的数据挖掘算法主要是K-means聚类算法。在运用数据挖掘算法前要对于数据进行准备及预处理将含有噪声的数据及不完整的数据信息进行删除和整理,将最后的结果作为数据挖掘算法的输入进行实际的应用。
  4.1数据准备及预处理
  本文中数据信息主要是来源于工会系统近十年的劳模数据信息,对于劳模的属性信息进行了关键的选择,主要包括劳模的类型(市级劳模,省级劳模,国家级劳模),劳模的政治面貌,勞模身份(军人,农民,科研人员等)劳模的主要事迹等。
  对于劳模数据的信息进行预处理主要包括空值的填充,在很多属性中存在空值现象,所有要进行空值的填充,劳模类型的重复,比如在全国劳模中很多已经获取其他级别的劳模,所以选择最高级别的类型信息进行记录处理。劳模的事迹的记录是一段很长的文字材料,其格式也不尽统一,所以不能直接进行数据的分析,需要将数据进行文本分词和关键字提取。最后将生成的数据进行离散化处理,使得原本复杂的数据变得简洁清晰。
  4.2工会系统数据K-means聚类算法的应用   本文主要对于工会数据进行数据集的K-means的聚类分析,首先对于所有的劳模数据进行统计,选取最近十年的劳模信息作为数据集,更能准确反映劳模数据之间的关系,有效地减少扫描数据的时间,使用K-means聚类算法进行聚类分析。K-means算法的实际应用过程如下:
  首先确定好目前数据想要得到的簇的数目,簇的种类越多,代表划分结果分析越准确,所以我们假设最后要得到的1000个簇,将数值1000和近十年的劳模数据信息作为输入。
  然后为每一个数据簇设置一个初始聚类中心,初始聚类中心可以随机选择劳模数据。
  接着根据欧几里得距离计算公式将近十年内除初始聚类中心外的所有劳模信息与各个簇的初始劳模数据进行比对,将相应的劳模信息分配到距离最近的簇中,每次更新簇的中心为当前簇的样本值的平均值,重复以上步骤,直到劳模数据全部统计完成为止。
  最后将K个簇的结果进行反馈到工会系统中,工会系统的工作人员根据最后的聚类结果进行深入分析,找到劳模数据之间的联系和差异,完善工会的制度,建设更加美好的工会系统。
  5.总结
  在互联网发展迅猛的时代,数据挖掘已经被广泛应用于各行各业。通过本次数据挖掘的应用,可以将工会系统中大量的劳模数据的背后关系进行深度挖掘,找到各个级别劳模之间的关系,或者不同政治面貌的劳模之间的关系等,将最后的结果反馈给工会的工作者,可以帮助他们制定相应的工会劳模制度,或者找到工会劳模制度中目前存在的问题并进行改正,为劳模等职工群众服务,体现劳模评选的公平和公正性。本文采用的聚类算法还可以得到改进,采用K中心点算法来进行聚类,可以保证对于孤立点的数据挖掘的准确性。
  参考文献
  [1] 基于数值气象模式和关联规则优化的风电场短期风速预报方法[D]. 迟德中.兰州大学2012
  [2] 基于支持向量机的气象预报方法研究[D].汪春秀.南京信息工程大学 2011
  [3] 基于关联规则和聚类分析的异常天气挖掘[D].郑忠平.电子科技大学 2011
  [4] 基于数值模拟和统计分析及智能优化的风速预报系統[J].林万涛,王建州,张文煜,郭振海,迟德中,张宇.气候与环境研究. 2012(05)
  [5] 数据挖掘技术在精细化温度预报中的应用[J]. 段文广,周晓军,石永炜.干旱气象.2012(01)
其他文献
[摘 要]对灭火原理和灭火方法的熟练掌握是提高灭火效率、提高灭火效率的重要的方法。文章以消防技术为研究对象,首先分析了消防技术中的灭火原理,然后以此为基础提出了一些行之有效的灭火方法,希望对相关从业人员有所帮助。  [关键词]消防技术;灭火原理;灭火方法  中图分类号:TG422 文献标识码:A 文章编号:1009-914X(2018)20-0209-01  引言  通常來说,造成火灾的源头多种多
期刊
[摘 要]随着经济与科技的不断发展,化工建设已经成为了我们国家当前最为重视的问题之一。化工建设工作本身具有较高的危险性,如果在实际生产的过程中有任何环节出现一定纰漏,则很有可能带来社会性灾难。这其中主要是由于化工生产工作中涉及到诸多有害物质,且这些物质易燃易爆,如果在实际运行的过程中遭到破坏,后果自然不堪设想。本篇文章将阐述安全评价工作的基本概念,分析其应用于化工建设工作中的重要意义,并对于具体应
期刊
[摘 要]石油开采过程中所产生的废水如果处理不当将严重污染地表水和地下水,进而通过作食物链最终危害人体以及动植物的生长健康,因此,在要对石油开采的过程中产生的废水进行有效的处理,保证人类及动植物的生长健康。本文论述了石油开采废水处理技术的基本内容、石油开采废水处理中存在的主要问题以及石油开采作业中废水处理技术的具体应用,希望对石油开采企业的废水处理工作提供帮助。  [关键词]石油开采;废水处理技术
期刊
[摘 要]随着社会的不断进步与发展,我国的检测技术获得了快速的发展,其中超声无损检测技术也逐渐趋向于成熟。超声无损检测技术广泛应用与人们日常的生产生活中,应用于各个行业中。在金属材料焊接的应用中,超无声检测技术由于其在应用中能够快速有效的发现不连续性,所以其在整个焊接中占据了非常重要的作用。除此之外,超声检测技术还能在金属材料的焊接过程中保证材料内部以及外部的完整性,能够有效的提高焊接的质量。本文
期刊
[摘 要]为大力推广普及新能源应用技术,搜集整理了当下公用建筑和民用建筑中常用和独创的保温技术、蓄热技术,冬季减少建筑的热量散失,夏季做好建筑外墙保温,发展蓄热保温技术成了实现建筑节能的重要环节,不仅能节约大量能源,还能给住户提供一个舒适的环境,带来许多实惠。  [关键词]建筑;蓄热技术;保温技术  中图分类号:TG422 文献标识码:A 文章编号:1009-914X(2018)20-0217-0
期刊
[摘 要]铁路电气化接触网的作用是为电力机车提供供电保障,具有能耗低、蓄电能力强、运行效率高的优点。但是在列车高速运行状态下,车身和接触网之间会产生较大的摩擦阻力,两者接触部位会因为摩擦生热现象而导致电气设备烧伤,给电力机车带来安全隐患。因此,铁路部门要强化对电气化基础网设备运行不足的重视,提出有针对性的改进措施。  [关键词]电气化接触网;电力机车;存在不足;改进措施  中图分类号:U213 文
期刊
[摘 要]目前,针对高压注水水表芯子的拆卸没有有效的工具,取出过程中由于空间狭小,有打不上工具,使不上力的现象,如卸除周边螺栓既费时费力,强行取出时还会造成水表芯子的损坏,导致成本支出的增加。还有个别存在现场取出过程中违章操作,采用高压水往外顶的方法,存在了极大的安全隐患。为了解决水表芯子取出问题,我们设计制作了抱卡式水表芯子取出器,该工具同时适用于“四化”改造后配水间的GLZ型高压流量自控仪检维
期刊
[摘 要]地理信息系统(GIS)是一門综合的技术,它涉及地理学、测绘学、计算机科学与技术等许多学科,其具有其他技术手段所不具备的空间数据管理及分析功能。目前GIS已在测绘、城市规划、水利、土木、环境保护、土地利用与规划等众多领域得到了广泛的应用,其在地震领域中的应用其应用领域包括地震分析、预测、预报、抗震、减灾、灾害预溯、辅助决策及应急指挥等各个方面。由于地震灾害的每一个环节及过程均与地理位置密切
期刊
[摘 要]建设项目管理即自项目开始至项目完成,通过项目策划和项目控制,使项目的费用目标、进度目标和质量目标得以实现。文章主要探讨了如何在建筑工程项目管理过程中重点加强质量管理、进度管理、成本管理和安全管理。  [关键词]建筑;成本;安全;质量  中图分类号:U213 文献标识码:A 文章编号:1009-914X(2018)20-0226-01  项目管理是以具体的建设项目或施工项目为对象、目标、内
期刊
按照保障运输发展、适应运输发展、促进运输发展的指导思想,和铁路货车重载,提速的要求,新车种、车型不断开发和投入运用,铁路货车实现了由60吨级载重向70吨级、80吨级载重的升级换代。在车钩缓冲装置方面由13型车钩、钩尾框、MT-3型缓冲器升级为17型车钩、钩尾框、MT-2型缓冲器。本文针对70吨级铁路货车车钩缓冲装置装用MT-2型缓冲器在质量保证期内运用中中心楔块两挂耳折断的问题进行分析:  MT-
期刊