论文部分内容阅读
随着计算机的普及、大容量存储技术的发展以及条形码等数据获取设备的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型数据。这些历史数据背后蕴藏了对决策有重要参考价值的信息,因而如何充分、有效利用这些历史数据是目前人们所关注的问题。数据仓库、联机分析处理和数据挖掘技术为解决这一问题提供了有效的途径。 本文以辽阳地区电力调度决策分析系统和青岛交通银行银行卡系统为实际应用背景,围绕着数据挖掘系统应当具备的特点,分别从交互式、多层次挖掘,复杂数据类型—时间序列相似挖掘,集成化挖掘,挖掘平台的构建及行业应用角度,对数据挖掘的相关方法进行研究。在此基础上,设计并实现了一个基于数据仓库的联机分析挖掘平台。主要研究内容包括: 一、研究挖掘空间定位问题。挖掘空间定位就是寻找反映所分析问题(分类/预测)的重要维度的过程,这一过程实质上是知识的约简过程。本文提出了一个解决挖掘空间定位问题的知识约简方法。该方法将粗集理论与并行遗传算法有机结合,具有良好的鲁棒性和全局寻优能力,可以快速、有效地帮助用户定位挖掘空间,提高挖掘效率和准确性。该问题的解决对于数据仓库中立方体的构建也有重要的指导意义。这同时也表明,并行思想的引入对于知识约简在解决大数据量问题时具有较大的实际意义,有广阔的应用前景。 二、研究时间序列数据的相似匹配问题。本文提出了基于小波包变换的时间序列相似匹配新方法,并用于时序相似模式挖掘。该方法在原有小波变换方法的基础上,充分利用小波包可对信号进行更加精细分析的优点,同时考虑尺度信息和细节信息,使得约简后的特征向量包含更多的时间序列有效信息。用多维索引结构尺树存储这些特征向量,使用欧几里德距离作为相似尺度,进行范围查询和k近邻查询。将该方法应用于电力负荷相似模式挖掘,得到了较好的效果,挖掘出的相似负荷模式对于调度计划安排、电力系统经济运行具有重要的实际意义。 三、研究粗集和神经网络的集成化问题。为充分发挥粗集和神经网络的优势,提高挖掘精度,本文通过前面提出的并行遗传约简算法快速选取神经网络的输入空间和训练数据,采用神经网络对精简后的数据进行挖掘。此集成化方法充分发挥了二者的优势,即粗集的约简知识的能力和神经网络精度高的特点,应用于银行卡客户特征分析中,取得了很好的效果。并行约简算法的引入可以进一步提高粗集和神经网络集成化方法的整体挖掘效率。 四、以上述研究内容为基础,论述基于数据仓库的联机分析挖掘平台SEI_OLAM及其在地区电力调度决策分析和银行卡分析领域中的应用。本文首先给出了SEI_OLAM的体系结构和主要功能;接着介绍了其各组成部分—数据仓库、联机分析及数据挖掘的设计与实现方法。根据行业应用特点,平台算法库中除包含常用挖掘算法外,还加入了本文上面提出的方法,在行业应用中取得了良好的效果。最后,给出了该平台在地区电力调度决策分析、银行卡分析领域的应用实例。作为本文主要研究内容的实际工程背景,这些项目最终能够开发成功使得本文所提方法和所开发平台的有效性和实用性得到了很好的验证。 总之,在借鉴国内外最新研究成果的基础上,本文分别从交互式、多层次挖掘,复杂数据类型一时间序列相似挖掘,集成化挖掘,挖掘平台的构建及行业应用角度,对数据挖掘中的相关算法进行研究,在此基础上,设计并实现了一个基于数据仓库的联机分析挖掘平台sEI_OLAM并成功应用于地区电力调度决策分析和银行卡分析领域,为这些领域的分析人员提供了有力的决策支持手段,得到了用户的好评。