论文部分内容阅读
随着计算机性能提高、成本下降以及数据管理技术的成功运用,社会信息化程度越来越高,数据存储量急剧上升。然而,“数据丰富,知识匮乏”,决策者很难从海量的数据中提取出有价值的知识。面对这一挑战,数据挖掘应运而生。数据挖掘有许多研究方向,关联规则挖掘是其中最活跃的研究方向之一,它反映了大量数据中项目之间的有意义关联或相关联系,其中最经典的算法是Apriori算法。但是该算法在挖掘频繁项集时需要产生大量的候选项集,多次扫描数据库,时间空间复杂度过高。针对这一局限性,如何提高挖掘算法的效率就成为了关联规则挖掘研究的核心问题。随着各国进出口交易往来的频繁,进出口贸易数据对研究和分析贸易市场行情和趋势所起的作用正日益显现出来,而采用数据挖掘中的关联规则技术可以从海量的进出口贸易数据中得到有价值的关系和规律,从而为决策提供参考。本文对关联规则挖掘算法进行了深入地研究,提出了一种改进方法,并将此方法应用于美洲进出口贸易数据挖掘中,得到可供决策参考的关联规则。本论文具体工作如下:
1.理论介绍。对数据挖掘和关联规则的基本理论进行了详尽的阐述,通过理论介绍为算法研究和系统应用奠定了基础。
2.算法研究。在理论认识的基础上,深入分析了关联规则挖掘经典算法Apriori。针对大型关系数据库中关联规则挖掘的特点,提出了一种基于分块编码的新算法LCA,对其从理论、流程各方面进行了详细介绍并演示了其实现步骤。最后通过实验比较了LCA算法和Apriori算法,验证了改进算法的有效性和优势。
3.系统应用。基于J2EE平台,设计开发了一个简易的专业数据挖掘系统,系统可以选择性地采用经典的Apriori算法和新提出的LCA算法进行关联规则的挖掘。系统应用部分既是对算法研究和改进的一种实际验证,又是对数据挖掘应用领域的一种开拓,实现了理论研究与实际应用的结合。