论文部分内容阅读
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现过程中的关键步骤,也是当前知识发现领域中的一个研究热点。近年来,国内外学术界和企业界,都非常重视对数据挖掘技术和软件工具的研究和开发,也取得一些成果。 关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中一组对象之间某种关联关系的规则(例如“同时发生”或者“从一个对象可以推出另一个”)。关联规则的简单表示形式是:X=>Y,X称作规则的前提,Y是规则的结果。通常,对于一个规则的衡量有两个标准:支持度(support)和置信度(confidence)。挖掘关联规则的问题就是找出这样的一些规则:他们的support和confidence分别大于用户指定的min_support和min_confidence限度。这个问题的主要挑战性在于数据量巨大(数据库容量达到若干GB字节,甚至TB字节),因此算法改进的方法主要围绕减少数据量来开展。目前研究的重点是如何找出频繁大项集(large itemset),围绕这个问题,R.Agrawal等在1994年提出了Apriori算法,它是一种经典的频集方法,但是Apriori算法也存在一些固有的缺陷:①多次重复扫描数据库,增加了挖掘过程中I/O操作的次数,加重了CFU的负担,影响计算效率。②只是适用于集中式数据库,不能应用到分布式数据库中③无法对稀有数据进行分析。 本文首先从理论和应用两个角度分析了Apriori算法的局限性,并且针对该算法的不足,设计了一种新的能够应用到分布式系统的算法,新的算法:①将数据水平分片到各个局部数据库中。②在各局部数据库上进行局部剪枝,产生局部大项集。③将局部大项集传送到其他节点④各个节点在收到其他节点发来的数据以后进行全局剪枝。因为经过了局部剪枝和全局剪枝的两个过程,数据量会从O(n~2)减少到O(n)。 然后,根据新的挖掘算法,结合港口与集装箱运输的实际情况,设计了面向港口与集装箱运输的数据挖掘模型DADM,在挖掘模型DADM的实现过程中,运用支持多平台的JAVA开发语言,采用了面向对象的设计和开发方法。同时,在知识的表达和解释机制方面也作了很多工作,使知识的表达不仅限于数字和符号,而是更容易理解的表格、图形等。分布式挖掘算法DDA的设计及其在DADM模型中的实现.....曰...‘口~.............,............... 最后,总结出设计挖掘算法和挖掘模型的方法,为针对分布式系统的数据挖掘系统的设计和研究提供了一种新尝试。 DADM挖掘模型以集装箱运输行业为背景,功能完善,操作简单,可扩展性强。同时,DADM挖掘模型在二次开发上并不受行业限制,通过分析具体的行业领域数据,本模型完全可以应用到银行、保险、气象等其它行业中。