论文部分内容阅读
随着现代信息技术、通讯技术和计算机技术的高速发展,数据库应用的范围、深度、规模不断扩大,使得无论是企业、科研机构或政府部门等,尤其在经济系统中(例如零售业、证券市场)过去多年的时间里积累了大量的数据。目前人们面临着迅速扩张的数据,如何有效地利用这一丰富的数据宝藏为人类服务,已经成为许多信息工作者关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种“丰富的数据,贫乏的知识”之独特的现象,人们迫切需要有新的有效手段对这些数据进行分析,数据挖掘方法就是为满足这种需求而产生并迅速发展起来的。 本文重点研究基于数据仓库的数据挖掘方法在经济系统中的应用研究,主要针对零售业和证券市场进行数据挖掘,这两个领域的数据丰富,具有一定的代表性。本文探讨了两种算法(关联规则、决策树)。首先进行数据采集,建立数据库,将有用的数据从数据库中提取、整合等转到一个数据仓库中,在此基础上,利用这些数据进行实证分析,从而发现一些规律性的东西。 本文的工作主要体现在以下几个方面: 1、论文首先对数据挖掘国内外的研究现状进行了分析,总结了国外数据挖掘在internet/web、电子商务等方面的应用,指出了国内的研究水平仍在起始阶段,绝大多数工作集中于局部算法设计,虽然有的开始进行软件开发,但还处在业务数据转移和建立数据仓库的初级阶段,进行综合的系统集成设计却寥寥无几,由于技术核心的欠缺,使得数据挖掘应用到各行业中的还不多。 2、论文对数据挖掘的产生、定义和过程进行了进一步分析,同时结合本文所用到的决策树和关联规则方法,对数据挖掘的方法进行了深入探讨。 3、论文设计和构造数据挖掘的集成开发环境——证券市场数据仓库(DW),提出了证券市场数据仓库的解决方案,介绍数据仓库系统的组成、信息来源、功能设计、建模及其关键技术,是本文的创新点之一。 4、在前人研究的基础上,突破了对局部算法的理论研究,将数据挖掘算法具体应用到了证券市场中,论文主要探讨了关联规则,针对证券市场的行情交易数据,看出股票的走势与价格有一定的关系,一段时间低价股上涨,一段时间中价股上涨,一段时间高价股上涨,说明股价与涨跌之间存在一定的关系即数量关联规则,发现股票价格和股票涨跌之间的关系,同时提取一个可信度最优的规则,这是本文的另一个创新点。 5、由于股票代码相当于商品,属于布尔型变量,论文采用APriori算法,该算法主要是针对布尔型变量的关联规则算法,利用行情数据,挖掘类似于“某只股票在某段时间内是上涨的,在置信度为某个值的情况下,另一只股票也随之上涨”·的规律,这又是本文的一大特色。 6、论文将客户关系管理和数据挖掘结合起来,给超市提出建设性意见,利用决策树算法将顾客进行划分,建议超市实行会员卡服务,根据不同的会员卡实行不同的优惠活动,为客户提供相应的服务。