论文部分内容阅读
[摘 要]随着现代信息技术的发展,计算机已经在越来越多的领域发挥着越来越重要的作用,尤其是数据挖掘技术在各种领域的应用越来越广泛,可以帮助提取客户的行为信息,进行用户行为分析和深度挖掘,目前工会面临着的问题越来越复杂和多变,我们需要根据工会系统中的劳模数据信息进行数据的深入分析,发掘劳模的相关信息和未来发展动向,为工会的决策的预测信息提供帮助。
[关键词]数据挖掘;工会;预测
中图分类号:U213 文献标识码:A 文章编号:1009-914X(2018)20-0208-01
0.前言
目前工会是由工人自发组织建立的一个工人阶级群众组织,是党组织和工人联系的桥梁和枢纽,是会员和职工利益的代表,所以工会信息在目前的社会具有很重要的研究意义。随着互联网时代的到来,工会也逐步开始采用工会信息系统来记录工会的内部信息,方便了工会各个项目的数据管理,提高了工作效率。工会系统的信息随着工人阶级的增加变得越来越多,而工会也在面临各种各样的问题,所以我们要对众多的工会数据进行详细分析和深度挖掘,探索到隐藏在数据背后的相关联系和事实。数据挖掘的结果不仅可以完善工会目前的问题,同时还可以帮助工作的领导者进行工会的决策。
1.工会系统建设的可行性
工会系统的主要是为了帮助广大的工人阶级而建立的信息系统,它主要用来对于工会中工人们的数据信息进行存储,提高了工会的办公效率并且保证了信息的准确性。工会的各个部门之间在业务处理过程中都积累了大量的业务数据,对于这些业务数据进行深度挖掘可以提取相关的业务逻辑,可以帮助领导者进行政策的抉择。目前的数据挖掘技术已经被广泛应用于各行各业中,尤其是以银行类的金融行业用的最为广泛,例如数据挖掘可以通过用户的消费情况进行行为分析来判断该用户是否具有偿还贷款的能力。基于以上的描述,工会系统的建设是非常可行的。
2.数据挖掘在工会系统应用的必要性
数据挖掘技术的不断成熟标志着互联网新时代的到来,各行各业都在逐渐将数据挖掘技术应用到自己的领域。信息系统主要用来存储用户的各类业务信息,同时提高相关领域的工作效率。如果我们仅仅将这些数据作为数据集来进行统计,这些数据将会失去很多的业务价值。所以我们将数据挖掘技术应用于信息系统中可以发现业务数据关系背后的价值,根据大规模的数据进行深度分析可以进行未来的预测,调整当前的工会的政策,使得工会更好地服务于广大劳动者。
3.K-means聚类算法介绍
目前数据挖掘算法主要包括聚类算法,分类算法,关联规则分析等,对于数据进行深度挖掘,提取有用的价值信息,根据目前应用最广泛的算法还是K-means聚类算法同时也是无监督学习的机器学习算法。
3.1元素相异度计算方法
K-means是一种聚类分析的经典算法,聚类就是将整个数据对象在不知道预期目的的情况下进行数据的划分的方法,划分后的各个聚类簇之间差异很大,同类簇之间相似度较高。一个数据对象只能被一个簇所拥有。它主要是通过对两个元素之间的差异度进行比较进行归纳信息。元素相异度的计算方法有很多种,主要包括欧几里得距离,它的定义为d(x,y)=sqrt((x1-y1)2+(x2-y2)2+…+(xn-yn)2),主要表示两个元素在欧式空间中的集合距离,因为欧式距离计算直观并且容易理解,所以在整个算法过程中该距离计算公式被广泛应用。第二种相异度计算方法为曼哈顿距离,它定义为d(x,y)=|x1-y1|+|x2-y2|+…+|xn-yn|,这两种距离的计算方式都是在实际应用比较广泛的。其余的二元变量类型,分类变量类型及序数变量类型应用也很多,由于在本项目中基本没有采用,所以不再做一一赘述。
3.2聚类问题介绍
聚类问题简单来说就是给定一个元素集合,其中每个元素具有n个可观察属性,使用特定的算法将这个元素集合划分成K个子集,使得每个子集内部元素之间的相异度尽可能低,不同子集之间元素的相异度尽可能高,每一个子集叫做一个簇。
K-means算法是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想主要是通过迭代过程把数据集划分为不同的类别,使得聚类性能的准则函数达到最优,这样生成的每个类别内聚性高,而类与类之间则耦合性低,不太适合处理离散型的数据集,对于连续性的数据集具有较好的聚类结果。
算法的输入为簇的数目K和包含n个对象的数据集。 算法的步骤首先为每一个簇都要设定一初始的聚类中心,然后将数据集的样本按照元素差异度计算方法分配到临近的簇,每一个簇的聚类中心被当前的簇中的元素平均值代替,最后重复以上步骤到聚类中心不在变化。最后得到K个聚类簇。
4.数据挖掘在工会系统中的应用过程
本文的数据挖掘算法主要是K-means聚类算法。在运用数据挖掘算法前要对于数据进行准备及预处理将含有噪声的数据及不完整的数据信息进行删除和整理,将最后的结果作为数据挖掘算法的输入进行实际的应用。
4.1数据准备及预处理
本文中数据信息主要是来源于工会系统近十年的劳模数据信息,对于劳模的属性信息进行了关键的选择,主要包括劳模的类型(市级劳模,省级劳模,国家级劳模),劳模的政治面貌,勞模身份(军人,农民,科研人员等)劳模的主要事迹等。
对于劳模数据的信息进行预处理主要包括空值的填充,在很多属性中存在空值现象,所有要进行空值的填充,劳模类型的重复,比如在全国劳模中很多已经获取其他级别的劳模,所以选择最高级别的类型信息进行记录处理。劳模的事迹的记录是一段很长的文字材料,其格式也不尽统一,所以不能直接进行数据的分析,需要将数据进行文本分词和关键字提取。最后将生成的数据进行离散化处理,使得原本复杂的数据变得简洁清晰。
4.2工会系统数据K-means聚类算法的应用 本文主要对于工会数据进行数据集的K-means的聚类分析,首先对于所有的劳模数据进行统计,选取最近十年的劳模信息作为数据集,更能准确反映劳模数据之间的关系,有效地减少扫描数据的时间,使用K-means聚类算法进行聚类分析。K-means算法的实际应用过程如下:
首先确定好目前数据想要得到的簇的数目,簇的种类越多,代表划分结果分析越准确,所以我们假设最后要得到的1000个簇,将数值1000和近十年的劳模数据信息作为输入。
然后为每一个数据簇设置一个初始聚类中心,初始聚类中心可以随机选择劳模数据。
接着根据欧几里得距离计算公式将近十年内除初始聚类中心外的所有劳模信息与各个簇的初始劳模数据进行比对,将相应的劳模信息分配到距离最近的簇中,每次更新簇的中心为当前簇的样本值的平均值,重复以上步骤,直到劳模数据全部统计完成为止。
最后将K个簇的结果进行反馈到工会系统中,工会系统的工作人员根据最后的聚类结果进行深入分析,找到劳模数据之间的联系和差异,完善工会的制度,建设更加美好的工会系统。
5.总结
在互联网发展迅猛的时代,数据挖掘已经被广泛应用于各行各业。通过本次数据挖掘的应用,可以将工会系统中大量的劳模数据的背后关系进行深度挖掘,找到各个级别劳模之间的关系,或者不同政治面貌的劳模之间的关系等,将最后的结果反馈给工会的工作者,可以帮助他们制定相应的工会劳模制度,或者找到工会劳模制度中目前存在的问题并进行改正,为劳模等职工群众服务,体现劳模评选的公平和公正性。本文采用的聚类算法还可以得到改进,采用K中心点算法来进行聚类,可以保证对于孤立点的数据挖掘的准确性。
参考文献
[1] 基于数值气象模式和关联规则优化的风电场短期风速预报方法[D]. 迟德中.兰州大学2012
[2] 基于支持向量机的气象预报方法研究[D].汪春秀.南京信息工程大学 2011
[3] 基于关联规则和聚类分析的异常天气挖掘[D].郑忠平.电子科技大学 2011
[4] 基于数值模拟和统计分析及智能优化的风速预报系統[J].林万涛,王建州,张文煜,郭振海,迟德中,张宇.气候与环境研究. 2012(05)
[5] 数据挖掘技术在精细化温度预报中的应用[J]. 段文广,周晓军,石永炜.干旱气象.2012(01)
[关键词]数据挖掘;工会;预测
中图分类号:U213 文献标识码:A 文章编号:1009-914X(2018)20-0208-01
0.前言
目前工会是由工人自发组织建立的一个工人阶级群众组织,是党组织和工人联系的桥梁和枢纽,是会员和职工利益的代表,所以工会信息在目前的社会具有很重要的研究意义。随着互联网时代的到来,工会也逐步开始采用工会信息系统来记录工会的内部信息,方便了工会各个项目的数据管理,提高了工作效率。工会系统的信息随着工人阶级的增加变得越来越多,而工会也在面临各种各样的问题,所以我们要对众多的工会数据进行详细分析和深度挖掘,探索到隐藏在数据背后的相关联系和事实。数据挖掘的结果不仅可以完善工会目前的问题,同时还可以帮助工作的领导者进行工会的决策。
1.工会系统建设的可行性
工会系统的主要是为了帮助广大的工人阶级而建立的信息系统,它主要用来对于工会中工人们的数据信息进行存储,提高了工会的办公效率并且保证了信息的准确性。工会的各个部门之间在业务处理过程中都积累了大量的业务数据,对于这些业务数据进行深度挖掘可以提取相关的业务逻辑,可以帮助领导者进行政策的抉择。目前的数据挖掘技术已经被广泛应用于各行各业中,尤其是以银行类的金融行业用的最为广泛,例如数据挖掘可以通过用户的消费情况进行行为分析来判断该用户是否具有偿还贷款的能力。基于以上的描述,工会系统的建设是非常可行的。
2.数据挖掘在工会系统应用的必要性
数据挖掘技术的不断成熟标志着互联网新时代的到来,各行各业都在逐渐将数据挖掘技术应用到自己的领域。信息系统主要用来存储用户的各类业务信息,同时提高相关领域的工作效率。如果我们仅仅将这些数据作为数据集来进行统计,这些数据将会失去很多的业务价值。所以我们将数据挖掘技术应用于信息系统中可以发现业务数据关系背后的价值,根据大规模的数据进行深度分析可以进行未来的预测,调整当前的工会的政策,使得工会更好地服务于广大劳动者。
3.K-means聚类算法介绍
目前数据挖掘算法主要包括聚类算法,分类算法,关联规则分析等,对于数据进行深度挖掘,提取有用的价值信息,根据目前应用最广泛的算法还是K-means聚类算法同时也是无监督学习的机器学习算法。
3.1元素相异度计算方法
K-means是一种聚类分析的经典算法,聚类就是将整个数据对象在不知道预期目的的情况下进行数据的划分的方法,划分后的各个聚类簇之间差异很大,同类簇之间相似度较高。一个数据对象只能被一个簇所拥有。它主要是通过对两个元素之间的差异度进行比较进行归纳信息。元素相异度的计算方法有很多种,主要包括欧几里得距离,它的定义为d(x,y)=sqrt((x1-y1)2+(x2-y2)2+…+(xn-yn)2),主要表示两个元素在欧式空间中的集合距离,因为欧式距离计算直观并且容易理解,所以在整个算法过程中该距离计算公式被广泛应用。第二种相异度计算方法为曼哈顿距离,它定义为d(x,y)=|x1-y1|+|x2-y2|+…+|xn-yn|,这两种距离的计算方式都是在实际应用比较广泛的。其余的二元变量类型,分类变量类型及序数变量类型应用也很多,由于在本项目中基本没有采用,所以不再做一一赘述。
3.2聚类问题介绍
聚类问题简单来说就是给定一个元素集合,其中每个元素具有n个可观察属性,使用特定的算法将这个元素集合划分成K个子集,使得每个子集内部元素之间的相异度尽可能低,不同子集之间元素的相异度尽可能高,每一个子集叫做一个簇。
K-means算法是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想主要是通过迭代过程把数据集划分为不同的类别,使得聚类性能的准则函数达到最优,这样生成的每个类别内聚性高,而类与类之间则耦合性低,不太适合处理离散型的数据集,对于连续性的数据集具有较好的聚类结果。
算法的输入为簇的数目K和包含n个对象的数据集。 算法的步骤首先为每一个簇都要设定一初始的聚类中心,然后将数据集的样本按照元素差异度计算方法分配到临近的簇,每一个簇的聚类中心被当前的簇中的元素平均值代替,最后重复以上步骤到聚类中心不在变化。最后得到K个聚类簇。
4.数据挖掘在工会系统中的应用过程
本文的数据挖掘算法主要是K-means聚类算法。在运用数据挖掘算法前要对于数据进行准备及预处理将含有噪声的数据及不完整的数据信息进行删除和整理,将最后的结果作为数据挖掘算法的输入进行实际的应用。
4.1数据准备及预处理
本文中数据信息主要是来源于工会系统近十年的劳模数据信息,对于劳模的属性信息进行了关键的选择,主要包括劳模的类型(市级劳模,省级劳模,国家级劳模),劳模的政治面貌,勞模身份(军人,农民,科研人员等)劳模的主要事迹等。
对于劳模数据的信息进行预处理主要包括空值的填充,在很多属性中存在空值现象,所有要进行空值的填充,劳模类型的重复,比如在全国劳模中很多已经获取其他级别的劳模,所以选择最高级别的类型信息进行记录处理。劳模的事迹的记录是一段很长的文字材料,其格式也不尽统一,所以不能直接进行数据的分析,需要将数据进行文本分词和关键字提取。最后将生成的数据进行离散化处理,使得原本复杂的数据变得简洁清晰。
4.2工会系统数据K-means聚类算法的应用 本文主要对于工会数据进行数据集的K-means的聚类分析,首先对于所有的劳模数据进行统计,选取最近十年的劳模信息作为数据集,更能准确反映劳模数据之间的关系,有效地减少扫描数据的时间,使用K-means聚类算法进行聚类分析。K-means算法的实际应用过程如下:
首先确定好目前数据想要得到的簇的数目,簇的种类越多,代表划分结果分析越准确,所以我们假设最后要得到的1000个簇,将数值1000和近十年的劳模数据信息作为输入。
然后为每一个数据簇设置一个初始聚类中心,初始聚类中心可以随机选择劳模数据。
接着根据欧几里得距离计算公式将近十年内除初始聚类中心外的所有劳模信息与各个簇的初始劳模数据进行比对,将相应的劳模信息分配到距离最近的簇中,每次更新簇的中心为当前簇的样本值的平均值,重复以上步骤,直到劳模数据全部统计完成为止。
最后将K个簇的结果进行反馈到工会系统中,工会系统的工作人员根据最后的聚类结果进行深入分析,找到劳模数据之间的联系和差异,完善工会的制度,建设更加美好的工会系统。
5.总结
在互联网发展迅猛的时代,数据挖掘已经被广泛应用于各行各业。通过本次数据挖掘的应用,可以将工会系统中大量的劳模数据的背后关系进行深度挖掘,找到各个级别劳模之间的关系,或者不同政治面貌的劳模之间的关系等,将最后的结果反馈给工会的工作者,可以帮助他们制定相应的工会劳模制度,或者找到工会劳模制度中目前存在的问题并进行改正,为劳模等职工群众服务,体现劳模评选的公平和公正性。本文采用的聚类算法还可以得到改进,采用K中心点算法来进行聚类,可以保证对于孤立点的数据挖掘的准确性。
参考文献
[1] 基于数值气象模式和关联规则优化的风电场短期风速预报方法[D]. 迟德中.兰州大学2012
[2] 基于支持向量机的气象预报方法研究[D].汪春秀.南京信息工程大学 2011
[3] 基于关联规则和聚类分析的异常天气挖掘[D].郑忠平.电子科技大学 2011
[4] 基于数值模拟和统计分析及智能优化的风速预报系統[J].林万涛,王建州,张文煜,郭振海,迟德中,张宇.气候与环境研究. 2012(05)
[5] 数据挖掘技术在精细化温度预报中的应用[J]. 段文广,周晓军,石永炜.干旱气象.2012(01)