论文部分内容阅读
【摘要】 在社会经济和科学技术持续发展背景下,各个行业发展所产生数据也越来越多,数据库规模也不断扩大,如何在大量数据中挖掘出可利用信息,也成为现代人们密切关注的问题。而直接采用传统数据挖掘技术将耗费大量时间,在充分考虑挖掘效率、负载平衡、运行环境等因素下,将全局通讯网络模式进行应用,不仅可以提高数据挖掘效率,还能够降低运行成本。
【关键词】 数据挖掘 全局通讯网络模式 并行算法 动态调度 分析
随着社会经济不断发展,尤其是工业和商业经济的发展,数据挖掘重要性作用愈发凸显,通过对可利用价值数据进行挖掘,可以为各行业稳定持续发展提供决策支持。但是在数据规模不断扩大背景下,如何持续提升数据挖掘质量与效率,这一问题也引发社会各界广泛关注和思考[1]。尤其是在对有价值信息数据挖掘时,不仅需要先进技术支撑,还需要耗费大量计算资源。本文提出一种新型并行关联规则挖掘算法,不仅可以降低通信成本,还能够使挖掘效率得到提高。
一、数据挖掘概述
对数据挖掘内涵进行阐述,主要是通过在大量信息数据中挖据出极具利用价值信息的过程总称。对这些数据信息进行利用,可以为经营者做发展规划和策略提供支持,甚至通过数据规律掌握和分析,可以对一个行业未来发展形式和方向进行预测。此外,作为一门新兴学科,开展数据挖掘工作需要对多个领域知识进行应用,如:数理统计、人工智能等等。通常情况下,数据挖掘涵盖了准备、挖掘和评价3个阶段,见下图1。
二、关联规则挖掘
在进行数据挖掘时,对关联规则进行有效挖掘是面临的重要问题之一,开展这项工作需要对频繁项目集进行快速和精准确定。在一些研究中也提出了采用关联规则和并行计算数据两种挖掘算法,实际应用时对这两种算法也进行了创新,但是从最终应用结果来看,依然存在可扩展性差、通讯量大等问题。[2-3]。为有效解决这些存在问题,提出新的并行数据挖掘算法,通过将大数据集划分成为若干份,然后将其分配到计算机群进行运行,然后对各并行单元运用全局通讯网络模式(Master-Worker模式),如下图2所示。该种模式下各节点之间存在耦合性比较小,无论是添加节点,还是减少节点也都比较便利,进而起到缩短数据挖掘时间,提高数据挖掘效率和质量作用。
三、动态调度算法
在将并行算法任务进行分配时,需要建立在遵循调度规则和策略基础上,将任务分配到系统各个节点上,不但可以解决存在的任务调度问题,而且能够提高系统任务执行效果,若是将动态调度算法融入到其中,这一效果更加显著,开展任务工作系统适应性也会进一步增强,随着负载不平衡情况不断减轻,系统运行效率也会得到提高。同时,在Master-Worker模式下,通过Master直接和依次的向Worker发送工作任务,并通过循环方式对其任务执行状况进行检查,当Worker完成一项任务以后,Master也会及时接收任务返回值并发送下一次任务,直到合成关联规则形成为止。
四、算法步骤
对数据挖局最为主要问题在于关联规则挖掘,而对关联规则进行有效挖掘需要通过发现频繁项目集实现。这时候数据库就可以对数学矩阵工具进行充分利用,并通过将其转换成为向量矩阵,同时充分发挥计算机作用,对向量矩阵实施处理,可以快速发现隐藏的关联规则。具体算法:假设数据库由M个属性和N个元组组成,那么数据库的规模可以用M×N表示,P为计算机可用节点数,需要解决问题为“在P个节点上,从M×N规模数据库中对关联规则进行挖掘”。
操作流程:首先,对大规模数据库进行划分,使之成为若干个小数据库;其次,将各小数据库分配到计算机群不同节点上,然后开展任务工作,对各数据库中存在的关联规则进行充分挖掘;最后,在合成挖掘结果,构建全局关联规则以后,筛选和输出存在规则集[3]。
五、结果分析
为了对全局通讯网络模式(Master-Worker模式)应用有效性进行验证,对这种算法进行了实验验证。通过在实验室局域网PC机群上搭建运行环境,并以信息传递接口(MPI)实现节点数据通讯功能。
根据上图3所示,可以发现与串行、静态调度算法相比较,本文提出的动态调度关联规则挖掘并行算法效率更高。从挖掘效率、挖掘时间层面来说,Master主要职能为工作任务发送和接收,对系统挖掘计算工作不参与,因此将其与串行挖掘和静态调度进行比较,花费在通讯上的时间会更多。但是结合上图3所示,Master负责节点数量比较多,并且随着节点数量增多,加速比呈现持续上升狀态,挖掘时间和挖掘效率也会得到优化[3-4]。
结语:随着社会不断进步、科技不断发展,所面临数据也越来越庞大,提高了数据处理和分析难度,尤其是对大规模数据库有价值信息数据挖掘,不仅需要对运行环境进行考虑,还需要对负载平衡和挖掘效率加以把握,而将全局通讯模式进行应用,可以使互相通信效果得到提升,同时结合动态调度原则,将划分好的挖掘任务分配至各处理器中,可以确保挖掘效率和质量。
参 考 文 献
[1]徐广宇,孟繁军.全局通讯网络模式的数据挖掘方法研究[J].电脑与信息技术,2013,21(4):1-5.
[2]张语涵.全局通讯网络模式的并行关联规则挖掘方法研究[J].通讯世界,2015,(17):79-80,81.
[3]胡文瑜,孙志挥,张柏礼.分布式数据挖掘中的最优K相异性取样技术[J].东南大学学报(自然科学版),2008,38(3):385-389.
【关键词】 数据挖掘 全局通讯网络模式 并行算法 动态调度 分析
随着社会经济不断发展,尤其是工业和商业经济的发展,数据挖掘重要性作用愈发凸显,通过对可利用价值数据进行挖掘,可以为各行业稳定持续发展提供决策支持。但是在数据规模不断扩大背景下,如何持续提升数据挖掘质量与效率,这一问题也引发社会各界广泛关注和思考[1]。尤其是在对有价值信息数据挖掘时,不仅需要先进技术支撑,还需要耗费大量计算资源。本文提出一种新型并行关联规则挖掘算法,不仅可以降低通信成本,还能够使挖掘效率得到提高。
一、数据挖掘概述
对数据挖掘内涵进行阐述,主要是通过在大量信息数据中挖据出极具利用价值信息的过程总称。对这些数据信息进行利用,可以为经营者做发展规划和策略提供支持,甚至通过数据规律掌握和分析,可以对一个行业未来发展形式和方向进行预测。此外,作为一门新兴学科,开展数据挖掘工作需要对多个领域知识进行应用,如:数理统计、人工智能等等。通常情况下,数据挖掘涵盖了准备、挖掘和评价3个阶段,见下图1。
二、关联规则挖掘
在进行数据挖掘时,对关联规则进行有效挖掘是面临的重要问题之一,开展这项工作需要对频繁项目集进行快速和精准确定。在一些研究中也提出了采用关联规则和并行计算数据两种挖掘算法,实际应用时对这两种算法也进行了创新,但是从最终应用结果来看,依然存在可扩展性差、通讯量大等问题。[2-3]。为有效解决这些存在问题,提出新的并行数据挖掘算法,通过将大数据集划分成为若干份,然后将其分配到计算机群进行运行,然后对各并行单元运用全局通讯网络模式(Master-Worker模式),如下图2所示。该种模式下各节点之间存在耦合性比较小,无论是添加节点,还是减少节点也都比较便利,进而起到缩短数据挖掘时间,提高数据挖掘效率和质量作用。
三、动态调度算法
在将并行算法任务进行分配时,需要建立在遵循调度规则和策略基础上,将任务分配到系统各个节点上,不但可以解决存在的任务调度问题,而且能够提高系统任务执行效果,若是将动态调度算法融入到其中,这一效果更加显著,开展任务工作系统适应性也会进一步增强,随着负载不平衡情况不断减轻,系统运行效率也会得到提高。同时,在Master-Worker模式下,通过Master直接和依次的向Worker发送工作任务,并通过循环方式对其任务执行状况进行检查,当Worker完成一项任务以后,Master也会及时接收任务返回值并发送下一次任务,直到合成关联规则形成为止。
四、算法步骤
对数据挖局最为主要问题在于关联规则挖掘,而对关联规则进行有效挖掘需要通过发现频繁项目集实现。这时候数据库就可以对数学矩阵工具进行充分利用,并通过将其转换成为向量矩阵,同时充分发挥计算机作用,对向量矩阵实施处理,可以快速发现隐藏的关联规则。具体算法:假设数据库由M个属性和N个元组组成,那么数据库的规模可以用M×N表示,P为计算机可用节点数,需要解决问题为“在P个节点上,从M×N规模数据库中对关联规则进行挖掘”。
操作流程:首先,对大规模数据库进行划分,使之成为若干个小数据库;其次,将各小数据库分配到计算机群不同节点上,然后开展任务工作,对各数据库中存在的关联规则进行充分挖掘;最后,在合成挖掘结果,构建全局关联规则以后,筛选和输出存在规则集[3]。
五、结果分析
为了对全局通讯网络模式(Master-Worker模式)应用有效性进行验证,对这种算法进行了实验验证。通过在实验室局域网PC机群上搭建运行环境,并以信息传递接口(MPI)实现节点数据通讯功能。
根据上图3所示,可以发现与串行、静态调度算法相比较,本文提出的动态调度关联规则挖掘并行算法效率更高。从挖掘效率、挖掘时间层面来说,Master主要职能为工作任务发送和接收,对系统挖掘计算工作不参与,因此将其与串行挖掘和静态调度进行比较,花费在通讯上的时间会更多。但是结合上图3所示,Master负责节点数量比较多,并且随着节点数量增多,加速比呈现持续上升狀态,挖掘时间和挖掘效率也会得到优化[3-4]。
结语:随着社会不断进步、科技不断发展,所面临数据也越来越庞大,提高了数据处理和分析难度,尤其是对大规模数据库有价值信息数据挖掘,不仅需要对运行环境进行考虑,还需要对负载平衡和挖掘效率加以把握,而将全局通讯模式进行应用,可以使互相通信效果得到提升,同时结合动态调度原则,将划分好的挖掘任务分配至各处理器中,可以确保挖掘效率和质量。
参 考 文 献
[1]徐广宇,孟繁军.全局通讯网络模式的数据挖掘方法研究[J].电脑与信息技术,2013,21(4):1-5.
[2]张语涵.全局通讯网络模式的并行关联规则挖掘方法研究[J].通讯世界,2015,(17):79-80,81.
[3]胡文瑜,孙志挥,张柏礼.分布式数据挖掘中的最优K相异性取样技术[J].东南大学学报(自然科学版),2008,38(3):385-389.