论文部分内容阅读
随着信息技术的不断推广应用,大量的先进制造企业采用了计算机及相应
的信息技术进行管理和运营,收集、存贮了海量的生产经营记录,但同时,大
量的信息也带来了真假信息难以识别,很难提取出企业真正需要的知识的问题,
企业普遍面临数据爆炸却有效的信息和知识相对短缺的状态,因此,如何对数
据进行有针对性的开采,发掘出有价值的信息和知识,形成企业的know-how,
指导企业的技术决策和经营决策,对于企业的发展,将发挥出举足轻重的作用。
数据仓库和数据挖掘就是解决上述问题的关键技术之一。本文以某流程企业为
背景,对数据仓库和数据挖掘若干理论进行研究并针对企业的实际情况顺利地
实施,为企业生产经营活动的协调与整体优化和设备的正常运行、故障预警提
供了丰富的决策依据,主要内容如下。
无论实施数据仓库还是数据挖掘,都要首先进行数据预处理。针对流程企
业数据源中存在的质量问题,提出了数据清洗的ETL的具体框架,采用不同算
法和技术对数据进行了有效的清洗、转换和装载,为数据仓库提供了可靠的数
据来源,在此基础上,分别采用DWER模型分析了具有复杂维结构和聚集的生
产计划和实际费用的数据仓库,星链ER模型(StarChainER)分析具有链式事实主
题的副产品库存和销售的数据仓库。最终建立起来以生产费用、油气生产、干
气和副产品库存和销售为主题的数据仓库。
根据流程企业中参数点的重要性不同和用连续数据表示的特点,分别研究
加权关联规则理论和模糊关联规则理论及在流程企业中的应用,针对数据的不
同特点,采用不同的模糊隶属函数处理了连续数据;然后把加权和模糊结合起
来,提出了两种新的方法实现了模糊加权关联规则:把项集的模糊数综合为权
值的方法和Fuzzy WedApriori算法,并在流程企业中有效应用。
鉴于实时数据库中数据点有时间戳的优势,在现有的研究基础上,从两个
角度发展了时间序列模式发现,首先采用两种算法:TimeSeq- Apriori算法和
TimeSeq PrefixSpan算法分析了具有时间间隔的时间序列分析;然后提出了时间
序列拓扑的思想,并根据时序数据库构造了FTP-图,采用FFP-图连接、候选TP
图剪枝和采用哈希树的候选TP-图计数方法,编制了FrequentTimePattem Graph
算法有效地挖掘出频繁模式图的时间序列,为企业设备运行时决策过程提供了
理论依据。
采用加权聚类方法对关键设备的大量历史数据进行分析,建立了设备正常
情况的聚类模型,提出了紧密(离核)指数、离群指数和综合指数的计算方法,
实现了对设备有效的实时监控。蚁群算法是一种比较先进的模拟进化算法,采
用蚁群算法改进了聚类分析。并根据蚁群算法中的pij(t)综合考虑了簇团内数据
点个数和到簇团内中心点距离的特点,创造性提出一种新的离群数据挖掘的方
法,得到较好的效果。
关键词:数据仓库,数据挖掘,ETL框架,概念模型,模糊加权关联规则,时间序列分析,时间序列拓扑,加权聚类分析,蚁群算法,离群数据挖掘,CIPS