分布式挖掘算法DDA的设计及其在DADM模型中的实现

来源 :上海海事大学 | 被引量 : 0次 | 上传用户:t573249005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是20世纪90年代中期兴起的一项新技术,它是知识发现过程中的关键步骤,也是当前知识发现领域中的一个研究热点。近年来,国内外学术界和企业界,都非常重视对数据挖掘技术和软件工具的研究和开发,也取得一些成果。 关联规则的发现是数据挖掘中的一项重要任务。关联规则表示数据库中一组对象之间某种关联关系的规则(例如“同时发生”或者“从一个对象可以推出另一个”)。关联规则的简单表示形式是:X=>Y,X称作规则的前提,Y是规则的结果。通常,对于一个规则的衡量有两个标准:支持度(support)和置信度(confidence)。挖掘关联规则的问题就是找出这样的一些规则:他们的support和confidence分别大于用户指定的min_support和min_confidence限度。这个问题的主要挑战性在于数据量巨大(数据库容量达到若干GB字节,甚至TB字节),因此算法改进的方法主要围绕减少数据量来开展。目前研究的重点是如何找出频繁大项集(large itemset),围绕这个问题,R.Agrawal等在1994年提出了Apriori算法,它是一种经典的频集方法,但是Apriori算法也存在一些固有的缺陷:①多次重复扫描数据库,增加了挖掘过程中I/O操作的次数,加重了CFU的负担,影响计算效率。②只是适用于集中式数据库,不能应用到分布式数据库中③无法对稀有数据进行分析。 本文首先从理论和应用两个角度分析了Apriori算法的局限性,并且针对该算法的不足,设计了一种新的能够应用到分布式系统的算法,新的算法:①将数据水平分片到各个局部数据库中。②在各局部数据库上进行局部剪枝,产生局部大项集。③将局部大项集传送到其他节点④各个节点在收到其他节点发来的数据以后进行全局剪枝。因为经过了局部剪枝和全局剪枝的两个过程,数据量会从O(n~2)减少到O(n)。 然后,根据新的挖掘算法,结合港口与集装箱运输的实际情况,设计了面向港口与集装箱运输的数据挖掘模型DADM,在挖掘模型DADM的实现过程中,运用支持多平台的JAVA开发语言,采用了面向对象的设计和开发方法。同时,在知识的表达和解释机制方面也作了很多工作,使知识的表达不仅限于数字和符号,而是更容易理解的表格、图形等。分布式挖掘算法DDA的设计及其在DADM模型中的实现.....曰...‘口~.............,............... 最后,总结出设计挖掘算法和挖掘模型的方法,为针对分布式系统的数据挖掘系统的设计和研究提供了一种新尝试。 DADM挖掘模型以集装箱运输行业为背景,功能完善,操作简单,可扩展性强。同时,DADM挖掘模型在二次开发上并不受行业限制,通过分析具体的行业领域数据,本模型完全可以应用到银行、保险、气象等其它行业中。
其他文献
计算机支持的移动协同学习是近年来CSCL的一个重要研究内容.移动设备(如手机)由于屏幕小、内存小、数据处理能力有限等因素一直在CSCL领域难有作为.问题具体表现在两个方面:
随着黑客入侵事件的日益猖獗,人们发现只从防御的角度构造安全系统是不够的。入侵检测技术是继防火墙和数据加密等传统安全保护措施后新一代的安全保障技术,它能够对计算机和网
现代网络教育以计算机网络以及卫星通讯技术为支撑,具有时空自由、资源共享、系统开放、便于协作等优点,近年来得到极大的发展.学习资源的可共享性和系统的互操作性对于网络
计算机行业在经历了硬件主导的时代、软件主导的时代之后,现在正处于网络主导的时代。随着Internet的迅猛发展和下一代网络的带宽建设,互联网发展的新阶段正在悄然来临。网络将
随着信息化时代的到来,一些新兴领域如社会网络分析,web2.0技术分析和生物信息网络分析对于解决规模图处理问题提出了更高的要求,如要完成这些需求,就必须做到能够同时处理10
该文从通信对抗侦察现状出发,就通信信号搜索、分析和识别中的关键技术进行了研究,具体内容如下:1采用构造性学习方法实现通信信号周期对比搜索法;从短波某波段采集了大量个
在松散耦合的网格环境里,3A访问模式是关系到用户如何使用和操作网格的关键问题。Internet、移动计算和普适计算等领域,都对这个问题进行了广泛研究。本文设计和实现了一种支
本文探讨对等计算与网格计算的一个结合点:大规模分布资源的查找.论文的研究工作如下.首先,论文详细总结了资源查找所涉及的关键问题、影响因素和性能评价参数.我们分析了随
企业产品测试系统作为现代制造企业实现产品质量管理的一个重要方面越来越受到现代制造企业的关注和重视。对跨国大企业而言,所生产的电冰箱产品要销往世界各地,而全球不同地区
软件体系结构是近十多年来软件工程中最热门的研究方向之一,被工业界和学术界普遍认为是软件工程取得突破性进展的一个关键领域。对软件体系结构的正确评价对保证其软件产品的