论文部分内容阅读
摘要:服装企业库存管理信息化程度的提高使企业积累了大量的生产、销售等真实数据。本文采用数据挖掘算法来分析和利用这些数据,挖掘出数据中潜在的知识。通过对数据挖掘算法的研究,将服装企业不同的挖掘目的与数据挖掘算法相结合,为服装企业的数据挖掘提供了可靠的解决途径。
关键词:服装企业,数据挖掘,算法
Research on Data Mining in Clothing Enterprise Inventory Management Application
作者:黄娜
作者单位:浙江纺织服装学院明州成教分院
Abstract: A large number of production and sales data is accumulated along with enhancing of informationization of clothing enterprise inventory management. In this paper, data mining algorithm is applied to analysis these data to excavate the potential knowledge among the data. Combining the data mining algorithms and different mining purpose is applied a reliable solutions for clothing enterprise.
Key words: Clothing enterprise, data mining, algorithm
中图分类号: F407.86 文献标识码: A 文章编号:
1 前言
服装行业作为我国的支柱产业,对国家的经济发展有着重大的意义。服装行业具有流行性、时尚性以及季节性的特点,服装产品的生命周期非常短,所以对于服装产品的需求非常的不稳定,受到各种因素如上市时间,气候变化等因素的影响,也直接影响到不同时间,对于生产不同产品所需的原料的库存。[1]如何准确的预测不同情况下各个因素对于库存量以及各个因素之间存在着关联关系,对于企业资源和资金的合理安排有着重要的作用。
随着服装企业信息化程度的提高,服裝企业库存管理系统在服装企业中有着深入的应用,长期的库存管理系统的应用必然为企业积累大量的真实的生产和销售等数据。如何利用这些信息发现隐藏在这些数据背后的知识,为企业提供有价值的知识有着重要的意义。
数据挖掘技术为解决上述的问题提供了重要的途径和方法。其主要任务就是设计各种有效的算法,从大型数据库的数据中发现人们感兴趣的潜在的、预先未知的有用的信息。
本文从数据挖掘的角度研究了其在服装企业库存管理中的应用。文章结构安排如下:第二节介绍了数据挖掘的过程以及几种数据挖掘算法;第三节将数据挖掘算法与服装企业的不同的目的相结合,进行了应用研究;第四节介绍了几种主流的数据挖掘软件;第五节做了总结以及进一步的研究内容。
2 数据挖掘过程与算法
数据挖掘(Data Mining)又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。[2]
数据挖掘的过程主要分为以下五步:1、确定业务对象,即定义业务问题,认清数据挖掘的目的;2、数据准备,主要包括了数据选择、预处理以及数据转化三个部分;3、数据挖掘,对所准备的数据,选择合适的数据挖掘算法进行挖掘;4、结果分析,可视化的展示数据挖掘的结果;5、知识同化,将数据挖掘所得到的知识集成到业务信息管理系统中去。
本文中将介绍两种流行的数据挖掘算法:1、Apriori算法;2、支持向量机算法。
2.1 Apriori 算法
Apriori算法作为经典的关联规则数据挖掘算法已经广泛的应用于各个领域,算法通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。[3]
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递归的方法。
2.1 支持向量机(SVM)算法
支持向量机(Support Vector Machine, SVM)是Corinna Cortes和Vapnik8等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。[4]
支持向量机的思想是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。
支持向量机分为支持向量分类机与支持向量回归机。支持向量分类机主要是对数据进行分类预测,通过学习得到数据的分类模型;支持向量回归机主要对连续目标值建立相应的预测模型。支持向量机算法已经成为主流的数据挖掘算法。
3 数据挖掘在服装企业应用研究
服装企业库存管理系统所积累的数据具有服装企业库存数据的特殊性,利用这些数据将相关的算法与服装企业不同挖掘目的相结合进行数据挖掘操作,具有巨大的现实意义和价值。下面介绍了两种不同的研究思路。
3.1 关联分析
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系。
在第二节中就介绍了数据挖掘关联分析的经典算法Apriori算法,该算法的目的就是建立形如“if A then B”的关联规则。我们根据服装企业库存管理系统中所存的库存数据、销售数据和客户个人信息数据等,利用Apriori算法建立了以下几种关联规则数据挖掘思路:
(一) 根据客户信息,以及客户历史购买数据,挖掘出客户影响其服装购买量的主要客户特征。通过挖掘得到的关联规则可以具体的发展具有某个特征的客户群。
(二) 一般服装都是按照季度进行分类,对于库存数据按照不同的季度进行数据分离,分析影响某个季度生产销售数据的主要的影响因素。
3.2 预测
预测作为数据挖掘一个最为重要的研究方面,有很大的应用价值。支持向量回归机作为最流行的预测算法已经在数据挖掘中得到了广泛和成熟的应用。本小节我们将考虑将该预测算法与服装企业具体的挖掘目的相结合,为服装企业数据挖掘提供了可行的方案。
预测服装企业的生产原料的库存量对于企业合理安排资金有重要的意义,建立起其生产产品与库存原料量之间的模型,这样就能够根据服装的产量来预测生产该批产品所需的库存原料量。这里可以采用成熟的支持向量回归算法。
4 数据挖掘软件
数据挖掘作为成熟的技术已经了许多成熟的软件,在本节中将介绍两个主流的数据挖掘的软件:1、Weka;2、SPSS。
4.1 Weka
Weka是免费的、非商业化的,基于JAVA环境下的开源的数据挖掘软件。集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
Weka有不同的接口可以让开发者完成自己想要实现的算法,达到不同的数据挖掘的目的和精度。
服装企业大部分的数据都是通过EXCEL与数据库的形式保存,而Weka对于数据导入格式的要求可以将上述的两种格式转化为所需要的数据格式,这为解决数据挖掘提供了技术支持。Weka中数据挖掘算法不但有成熟的关联分析算法以及预测算法的实现,还对于挖掘结果有着很好的展示。对于服装行业数据挖掘软件还不成熟的现在,Weka能够解决基本所有挖掘目标下的数据挖掘问题。
4.2 SPSS
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。[5]SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服務。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。
SPSS主要的功能:1、增强的数据管理功能;2、完善的结果报告功能;3、Complex Samples模块增加统计建模功能。
服装企业可以应用其数据挖掘的功能解决其不同目的的挖掘,并可以给出完善的挖掘结果报告。
5 总结
本文从数据挖掘的角度来研究服装企业库存管理中的应用,将不同挖掘目的与不同的挖掘算法相结合。文章的最后还提供了两种比较成熟的数据挖掘软件。对于目前服装企业数据挖掘方面应用的不广泛,下一步有必要研究适用于服装企库存数据挖掘的算法,并构建相信的数据仓库、开发相应的软件。
参考文献
[1] 孙永剑,李仁旺.基于数据挖掘的服装决策系统.计算机工程,2005.8
[2] 邵峰晶,于忠清.数据挖掘原理与算法.北京:中国水利水电出版社,2003.8
[3] 朱明.数据挖掘.北京:中国科学技术大学出版社,2002.5
[4] 张莹,李凡生.基于数据挖掘的支持向量机预测库存模型研究.理论研讨,2009.9
[5] 薛薇.基于SPSS的数据分析.中国人民大学出版社,2006
关键词:服装企业,数据挖掘,算法
Research on Data Mining in Clothing Enterprise Inventory Management Application
作者:黄娜
作者单位:浙江纺织服装学院明州成教分院
Abstract: A large number of production and sales data is accumulated along with enhancing of informationization of clothing enterprise inventory management. In this paper, data mining algorithm is applied to analysis these data to excavate the potential knowledge among the data. Combining the data mining algorithms and different mining purpose is applied a reliable solutions for clothing enterprise.
Key words: Clothing enterprise, data mining, algorithm
中图分类号: F407.86 文献标识码: A 文章编号:
1 前言
服装行业作为我国的支柱产业,对国家的经济发展有着重大的意义。服装行业具有流行性、时尚性以及季节性的特点,服装产品的生命周期非常短,所以对于服装产品的需求非常的不稳定,受到各种因素如上市时间,气候变化等因素的影响,也直接影响到不同时间,对于生产不同产品所需的原料的库存。[1]如何准确的预测不同情况下各个因素对于库存量以及各个因素之间存在着关联关系,对于企业资源和资金的合理安排有着重要的作用。
随着服装企业信息化程度的提高,服裝企业库存管理系统在服装企业中有着深入的应用,长期的库存管理系统的应用必然为企业积累大量的真实的生产和销售等数据。如何利用这些信息发现隐藏在这些数据背后的知识,为企业提供有价值的知识有着重要的意义。
数据挖掘技术为解决上述的问题提供了重要的途径和方法。其主要任务就是设计各种有效的算法,从大型数据库的数据中发现人们感兴趣的潜在的、预先未知的有用的信息。
本文从数据挖掘的角度研究了其在服装企业库存管理中的应用。文章结构安排如下:第二节介绍了数据挖掘的过程以及几种数据挖掘算法;第三节将数据挖掘算法与服装企业的不同的目的相结合,进行了应用研究;第四节介绍了几种主流的数据挖掘软件;第五节做了总结以及进一步的研究内容。
2 数据挖掘过程与算法
数据挖掘(Data Mining)又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。[2]
数据挖掘的过程主要分为以下五步:1、确定业务对象,即定义业务问题,认清数据挖掘的目的;2、数据准备,主要包括了数据选择、预处理以及数据转化三个部分;3、数据挖掘,对所准备的数据,选择合适的数据挖掘算法进行挖掘;4、结果分析,可视化的展示数据挖掘的结果;5、知识同化,将数据挖掘所得到的知识集成到业务信息管理系统中去。
本文中将介绍两种流行的数据挖掘算法:1、Apriori算法;2、支持向量机算法。
2.1 Apriori 算法
Apriori算法作为经典的关联规则数据挖掘算法已经广泛的应用于各个领域,算法通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。[3]
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递归的方法。
2.1 支持向量机(SVM)算法
支持向量机(Support Vector Machine, SVM)是Corinna Cortes和Vapnik8等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。[4]
支持向量机的思想是将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。
支持向量机分为支持向量分类机与支持向量回归机。支持向量分类机主要是对数据进行分类预测,通过学习得到数据的分类模型;支持向量回归机主要对连续目标值建立相应的预测模型。支持向量机算法已经成为主流的数据挖掘算法。
3 数据挖掘在服装企业应用研究
服装企业库存管理系统所积累的数据具有服装企业库存数据的特殊性,利用这些数据将相关的算法与服装企业不同挖掘目的相结合进行数据挖掘操作,具有巨大的现实意义和价值。下面介绍了两种不同的研究思路。
3.1 关联分析
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系。
在第二节中就介绍了数据挖掘关联分析的经典算法Apriori算法,该算法的目的就是建立形如“if A then B”的关联规则。我们根据服装企业库存管理系统中所存的库存数据、销售数据和客户个人信息数据等,利用Apriori算法建立了以下几种关联规则数据挖掘思路:
(一) 根据客户信息,以及客户历史购买数据,挖掘出客户影响其服装购买量的主要客户特征。通过挖掘得到的关联规则可以具体的发展具有某个特征的客户群。
(二) 一般服装都是按照季度进行分类,对于库存数据按照不同的季度进行数据分离,分析影响某个季度生产销售数据的主要的影响因素。
3.2 预测
预测作为数据挖掘一个最为重要的研究方面,有很大的应用价值。支持向量回归机作为最流行的预测算法已经在数据挖掘中得到了广泛和成熟的应用。本小节我们将考虑将该预测算法与服装企业具体的挖掘目的相结合,为服装企业数据挖掘提供了可行的方案。
预测服装企业的生产原料的库存量对于企业合理安排资金有重要的意义,建立起其生产产品与库存原料量之间的模型,这样就能够根据服装的产量来预测生产该批产品所需的库存原料量。这里可以采用成熟的支持向量回归算法。
4 数据挖掘软件
数据挖掘作为成熟的技术已经了许多成熟的软件,在本节中将介绍两个主流的数据挖掘的软件:1、Weka;2、SPSS。
4.1 Weka
Weka是免费的、非商业化的,基于JAVA环境下的开源的数据挖掘软件。集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
Weka有不同的接口可以让开发者完成自己想要实现的算法,达到不同的数据挖掘的目的和精度。
服装企业大部分的数据都是通过EXCEL与数据库的形式保存,而Weka对于数据导入格式的要求可以将上述的两种格式转化为所需要的数据格式,这为解决数据挖掘提供了技术支持。Weka中数据挖掘算法不但有成熟的关联分析算法以及预测算法的实现,还对于挖掘结果有着很好的展示。对于服装行业数据挖掘软件还不成熟的现在,Weka能够解决基本所有挖掘目标下的数据挖掘问题。
4.2 SPSS
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。[5]SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服務。SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。
SPSS主要的功能:1、增强的数据管理功能;2、完善的结果报告功能;3、Complex Samples模块增加统计建模功能。
服装企业可以应用其数据挖掘的功能解决其不同目的的挖掘,并可以给出完善的挖掘结果报告。
5 总结
本文从数据挖掘的角度来研究服装企业库存管理中的应用,将不同挖掘目的与不同的挖掘算法相结合。文章的最后还提供了两种比较成熟的数据挖掘软件。对于目前服装企业数据挖掘方面应用的不广泛,下一步有必要研究适用于服装企库存数据挖掘的算法,并构建相信的数据仓库、开发相应的软件。
参考文献
[1] 孙永剑,李仁旺.基于数据挖掘的服装决策系统.计算机工程,2005.8
[2] 邵峰晶,于忠清.数据挖掘原理与算法.北京:中国水利水电出版社,2003.8
[3] 朱明.数据挖掘.北京:中国科学技术大学出版社,2002.5
[4] 张莹,李凡生.基于数据挖掘的支持向量机预测库存模型研究.理论研讨,2009.9
[5] 薛薇.基于SPSS的数据分析.中国人民大学出版社,2006