试论全局通讯网络模式的数据挖掘方法

来源 :中国新通信 | 被引量 : 0次 | 上传用户:mm963258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    在社会经济和科学技术持续发展背景下,各个行业发展所产生数据也越来越多,数据库规模也不断扩大,如何在大量数据中挖掘出可利用信息,也成为现代人们密切关注的问题。而直接采用传统数据挖掘技术将耗费大量时间,在充分考虑挖掘效率、负载平衡、运行环境等因素下,将全局通讯网络模式进行应用,不仅可以提高数据挖掘效率,还能够降低运行成本。
  【关键词】    数据挖掘    全局通讯网络模式    并行算法    动态调度    分析
  随着社会经济不断发展,尤其是工业和商业经济的发展,数据挖掘重要性作用愈发凸显,通过对可利用价值数据进行挖掘,可以为各行业稳定持续发展提供决策支持。但是在数据规模不断扩大背景下,如何持续提升数据挖掘质量与效率,这一问题也引发社会各界广泛关注和思考[1]。尤其是在对有价值信息数据挖掘时,不仅需要先进技术支撑,还需要耗费大量计算资源。本文提出一种新型并行关联规则挖掘算法,不仅可以降低通信成本,还能够使挖掘效率得到提高。
  一、数据挖掘概述
  对数据挖掘内涵进行阐述,主要是通过在大量信息数据中挖据出极具利用价值信息的过程总称。对这些数据信息进行利用,可以为经营者做发展规划和策略提供支持,甚至通过数据规律掌握和分析,可以对一个行业未来发展形式和方向进行预测。此外,作为一门新兴学科,开展数据挖掘工作需要对多个领域知识进行应用,如:数理统计、人工智能等等。通常情况下,数据挖掘涵盖了准备、挖掘和评价3个阶段,见下图1。
  二、关联规则挖掘
  在进行数据挖掘时,对关联规则进行有效挖掘是面临的重要问题之一,开展这项工作需要对频繁项目集进行快速和精准确定。在一些研究中也提出了采用关联规则和并行计算数据两种挖掘算法,实际应用时对这两种算法也进行了创新,但是从最终应用结果来看,依然存在可扩展性差、通讯量大等问题。[2-3]。为有效解决这些存在问题,提出新的并行数据挖掘算法,通过将大数据集划分成为若干份,然后将其分配到计算机群进行运行,然后对各并行单元运用全局通讯网络模式(Master-Worker模式),如下图2所示。该种模式下各节点之间存在耦合性比较小,无论是添加节点,还是减少节点也都比较便利,进而起到缩短数据挖掘时间,提高数据挖掘效率和质量作用。
  三、动态调度算法
  在将并行算法任务进行分配时,需要建立在遵循调度规则和策略基础上,将任务分配到系统各个节点上,不但可以解决存在的任务调度问题,而且能够提高系统任务执行效果,若是将动态调度算法融入到其中,这一效果更加显著,开展任务工作系统适应性也会进一步增强,随着负载不平衡情况不断减轻,系统运行效率也会得到提高。同时,在Master-Worker模式下,通过Master直接和依次的向Worker发送工作任务,并通过循环方式对其任务执行状况进行检查,当Worker完成一项任务以后,Master也会及时接收任务返回值并发送下一次任务,直到合成关联规则形成为止。
  四、算法步骤
  对数据挖局最为主要问题在于关联规则挖掘,而对关联规则进行有效挖掘需要通过发现频繁项目集实现。这时候数据库就可以对数学矩阵工具进行充分利用,并通过将其转换成为向量矩阵,同时充分发挥计算机作用,对向量矩阵实施处理,可以快速发现隐藏的关联规则。具体算法:假设数据库由M个属性和N个元组组成,那么数据库的规模可以用M×N表示,P为计算机可用节点数,需要解决问题为“在P个节点上,从M×N规模数据库中对关联规则进行挖掘”。
  操作流程:首先,对大规模数据库进行划分,使之成为若干个小数据库;其次,将各小数据库分配到计算机群不同节点上,然后开展任务工作,对各数据库中存在的关联规则进行充分挖掘;最后,在合成挖掘结果,构建全局关联规则以后,筛选和输出存在规则集[3]。
  五、结果分析
  为了对全局通讯网络模式(Master-Worker模式)应用有效性进行验证,对这种算法进行了实验验证。通过在实验室局域网PC机群上搭建运行环境,并以信息传递接口(MPI)实现节点数据通讯功能。
  根据上图3所示,可以发现与串行、静态调度算法相比较,本文提出的动态调度关联规则挖掘并行算法效率更高。从挖掘效率、挖掘时间层面来说,Master主要职能为工作任务发送和接收,对系统挖掘计算工作不参与,因此将其与串行挖掘和静态调度进行比较,花费在通讯上的时间会更多。但是结合上图3所示,Master负责节点数量比较多,并且随着节点数量增多,加速比呈现持续上升狀态,挖掘时间和挖掘效率也会得到优化[3-4]。
  结语:随着社会不断进步、科技不断发展,所面临数据也越来越庞大,提高了数据处理和分析难度,尤其是对大规模数据库有价值信息数据挖掘,不仅需要对运行环境进行考虑,还需要对负载平衡和挖掘效率加以把握,而将全局通讯模式进行应用,可以使互相通信效果得到提升,同时结合动态调度原则,将划分好的挖掘任务分配至各处理器中,可以确保挖掘效率和质量。
  参  考  文  献
  [1]徐广宇,孟繁军.全局通讯网络模式的数据挖掘方法研究[J].电脑与信息技术,2013,21(4):1-5.
  [2]张语涵.全局通讯网络模式的并行关联规则挖掘方法研究[J].通讯世界,2015,(17):79-80,81.
  [3]胡文瑜,孙志挥,张柏礼.分布式数据挖掘中的最优K相异性取样技术[J].东南大学学报(自然科学版),2008,38(3):385-389.
其他文献
所谓生物流化床,就是以砂、活性炭、焦炭等颗粒为载体充填于生物反应器内,因载体表面生长着生物膜而使其变轻,当废水以一定流速从下向上流动时,载体便处于流化状态,它是一种强化生
热电发电是利用半导体材料的塞贝克效应将热能和电能进行直接转换的技术。热电转换效率主要取决于材料的无量纲性能指数ZT=S2σT/κ。高性能热电半导体材料要求具有良好的电
学位
本文用等离子体基离子注入混合技术在M50基体上成功的沉积了不同成分的(Ti,Al)N/DLC膜。系统研究了(Ti,Al)N和(Ti,Al)N/DLC膜的成分、结构、腐蚀及摩擦学性能。研究结果
本文通过对荣华二采区10
期刊
研究了碳化物增强钛基复合材料在700、800和900℃空气中的恒温氧化行为,分析了不同的增强体含量、铝含量对钛基复合材料及基体合金氧化动力学行为的影响,并用配有能谱分析
二阶非线性光学薄膜材料在光通讯、光信息处理以及光学存贮等领域具有非常广阔的应用前景。基于报道:金红石TiO2(110)和(001)等晶面具有显著的二阶非线性光学性能,本文设想:通过
近年来,随着新课程标准的不断改革,教育体制和教学理念也在不断的改进和完善,在素质教育的大背景下,传统的教学思想已经不能满足学生的学习需求,而如今的教育教学也不仅只是
本文通过控制四氯化钛水溶液的pH值和钛的浓度,用简单的沉淀方法得到了超细的二氧化钛纳米粉末。通过加入6M氢氧化钠水溶液得到的pH值为0.1的0.8M四氯化钛水溶液,在室温下
文章从“课程思政”的价值本源、学生自身发展的需要以及全程育人的理念出发,分析了在专业课程中实施“课程思政”的必要性,并以“软件项目管理”为例,探讨通过专业课修订教
CuO和Mn_3O_4是两种很有应用价值的重要过渡族金属氧化物纳米材料,它们在很多领域内都有着广泛的应用。本论文通过超声辅助水溶液球磨工艺,分别以Cu(CH_3COO)_2、Mn(CH_3COO)_2、MnO和Mn为铜源和锰源,在室温下成功合成了纳米CuO和Mn_3O_4粉末,并通过XRD、SEM、TEM和紫外分光光度计(UV)分析等检测手段对反应产物进行表征。为了验证超声辐射与球磨机械的耦合效应