大型数据库的关联挖掘算法设计分析

来源 :世界家苑 | 被引量 : 0次 | 上传用户:foreststonezgdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:当今,数据容量规模的扩大,导致数据规模扩大、复杂化,人们无法快速找到感兴趣的数据,对于此类爆炸式增长的数据,人们进行数据处理以及数据分析的能力非常有限。因此,数据挖掘技术得到了广泛重视及深入研究,逐步成为重要研究领域。
  关键词:大型数据库;关联规则;挖掘算法;关联挖掘
  数据挖掘即从大量不完全、有噪声、模糊随机数据中获取包含有人们事先不知道又潜在有用信息及知识处理进程。该方法之所以被称为未来信息处理重要技术之一,关键是它以一种全新概念转变着人类使用数据的模式。但数据库技术作为一种最基础的信息储存及管理形式,依旧以联机事务处理为重点使用,对决策、解析、预测等高级性能的支持技术较少。关联规则挖掘是数据挖掘的一个重要分支,广泛应用在多个领域,如数据分析、数据库设计、仓储规划、网络故障解析等,导致已有的数据库规模迅速扩大,对大规模数据库关联规则挖掘的研究成为了该领域具备关键理论价值及现实意义事件。对此,提出并设计了基于贝叶斯信息标准BIC评分函数的大型数据库关联挖掘算法。
  1数据库关联数据分析
  在对大型数据库进行关联挖掘过程中,其数据库的获取及数据预处理是影响关联挖掘的关键步骤。对此,在数据库获取后,对数据进行预处理过程中,采用自适应函数对其进行分析,提高大型数据库数据性能,为进行关联挖掘提供基础依据。
  1.1数据库获取分析
  数据库还原模块在运行时,首先将运行环境初始化,包括环境变量初始化、配置文件初始化、公共变量和数据缓存初始化。然后进行网络设备初始化,最后创建数据库还原模块的工作线程,包括数据流还原线程、拦截数据包线程和数据包处理分析调度线程。拦截数据包线程的主要功能是拦截网上的数据包,数据流还原线程的主要功能是还原网络数据包,并将还原结果存入数据库还原模块的数据库中。数据包处理分析调度线程主要对不同的数据包进行调度。数据获取中主要获取内容是相关数据来源记录信息、具体数据特征、获取数据所需时间等。实现这一目标的方式有很多种,其主要依据是借助各种途径,对数据进行采集。
  1.2数据库关联
  数据预处理数据库数据量较大,若要增加挖掘效率,实现挖掘的目的,要对数据提前进行一定处理,即预处理,重点包括数据采集、整理、选择、转存等流程。在数据整理方面,重点是对具有冗余特征的数据删除、对类似数据项进行合并、筛查修正数据信息等。在此之后进行集体的筛选处理,把来自不同源点的数据汇集起来,对数据进行筛查,找出适合搜寻需求的数据种类。最后对数据进行转换,把最终得到的数据对应地进行适应度函数调整、转变成更适合使用的格式,方便进行关联挖掘解析。在进行关联数据预处理过程中,把网络结构学习作为最优化问题,对挖掘目标进行搜索评分。
  对此采用较为常用的评分函数有贝叶斯信息标准BIC评分函数,对数据进行预处理。该评分函数具备以下几个优点[9]:一是不依附先验概率,不对先验概率分布情况进行估计;二是在样本集合过大时,能够近似地对后验概率进行验证;三是在没有规定多项式分布及Dirichlet先验概率情况下,和MDL测度取负号的结果近似相等。因此,在本算法中使用BIC评分函数作为适应度函数,并认为BIC的得分越高,适应度越好,为后续的关联挖掘提供基础。在数据关联挖掘中,若每个部分均要给出相应的挖掘规则、频繁集等,则需对选取范围进行确认,并建立对应向量,采用普通的安全多方循环协议进行集合的合并。为了增加预处理的安全性能,采用基于可交换密钥顺序方法进行安全加密处理。在共享的状况下,能够采用其余方式进行可交换加密。
  2关联挖掘算法优化研究
  在进行大数据关联挖掘算法优化过程中,首先对数据进行一次扫描,搜出整体的频繁1_项集;然后对搜出的频繁1_项集进行组合,依次产生频繁2_项集、频繁3_项集等。关联挖掘算法优化流程图如图1所示。
  3系统性能测试
  3.1系統性能评估方法
  实验采用系统仿真的方式对算法有效性进行验证,实验环境如下。系统硬件采用4核1.66GHz的CPU;RAM10GB。系统操作系统采用Windows2010Server;源数据库使用默认.dat二进制的数据;输出文件为.txt文本文件;以VC++6.0sp6编制为实验程序;实验期间断开网络连接,防止出现误差;每一次实验后对系统内存进行整理,让每一次程序运行环境尽量统一。准确率在算法验证过程中,将某一兴趣类别产生的数据进行正确的判定,而得到的总和百分比才是最终的准确率。准确率与出错率成反比,即当错误率降低时,准确率提高,表示用户的挖掘效率越高。
  3.2结果分析
  准确率对比结果如图2所示。
  图2 准确率对比结果分析
  由图2可知,采用传统挖掘算法进行数据库挖掘时,在时间不定的情况下,其挖掘准确率随着时间的增加出现下降的趋势,准确率最高达到73.4%,最低为50.8%,平均准确率约为56.4%;采用改进方法时,随着时间的增加,其挖掘准确率具有上升趋势,准确率最高达到99.4%,最低为80.1%,平均值约为91.3%,相比传统挖掘算法提高了约34.9%,具有一定的优势。
  4结论
  针对传统挖掘算法一直存在挖掘准确率低、效率差的问题,提出基于贝叶斯信息标准BIC评分函数的大型数据库关联挖掘算法。实验结果表明,采用改进算法相比传统挖掘算法准确率提高了约34.9%,具有显著优势。
  参考文献
  [1] 何佩佩. 云环境下数据挖掘算法的研究与设计[D]. 东华大学,2016.
  [2] 谢笑盈,徐应涛,张莹. 基于抽样学习的关联挖掘算法设计[J]. 浙江师范大学学报(自然科学版),2018(1).
  [3] 张全红. 面向大数据的关联规则算法研究[D]. 西安科技大学,2017.
  (作者单位:国网辽宁省电力有限公司信息通信分公司)
其他文献
摘 要:随着我国经济飞速增长,我国对教育方面也引起了重视,这相关教育机构也有了巨大挑战,当然,要想在小学数学教学中发挥重要的作用,就要大力发展小学数学的核心素养的作用。本文分析了核心素养的概念及小学发展核心素养的必要性,并对小学数学核心素养的构成要素进行了探讨,希望能更好、更有效地发挥小学数学核心素养的作用。  关键词:小学数学;核心素养;构成要素  前言:  一个校园文化的最直观的展现就是特校园
期刊
摘 要:中国传统文化元素在不断传播、融合、沉淀中具有鲜明的时代特色,对新时期动画艺术设计有着深远的现实意义,要在整合动画艺术设计特征、要求的基础上通过多种有效的路径科学化应用传统文化元素,提升动画艺术设计水平的同时满足当下传统文化发展要求,使其得到更好地传承与发展。  关键词:传统文化元素;动画艺术设计;应用  在经济全球化大浪潮中,我国和世界范围内不同国家之间的联系持续加强,文化层面的交流日渐频
期刊
摘 要:近些年来,我国智能电网的发展伴随着社会经济与科技的发展而得到了稳定的提升。电力系统对于我国的经济发展具有举足轻重的作用,所以,想要满足我国现阶段日益增长的配电需求,就必须加强电力电子技术在智能电网中的应用。电力电子技术能够推动我国电力系统的各个阶段,所以应当对电力电子技术的应用做出深入的研究。  关键词:电力电子技术;智能电网;运用分析  随着近些年来我国“十二五”规划的发展,国家电网公司
期刊
摘 要:UHMW-PE的全称是超高分子量聚乙烯,综合性能很好,但由于在热变形温度较低,抗压强度较小等方面的缺点,大大限制了UHMW-PE的应用,使用碳纤维改性UHMW-PE后,其热变形、抗拉伸等性能有了很明显的提高,这也在很大程度上提升了UHMW-PE的综合性能。  关键词:UHMW-PE;改性;碳纤维  1.原材料背景研究:  UHMW-PE的全称为超高分子量聚乙烯,是近年发展起来的一种新型材料
期刊
摘 要:经济的发展和科技的进步,促进互联网给动画产业带来了新的机遇和前景。“互联网+”不仅为动画传播、动画设计提供了有利的平台,还改变了传统的教学形式。依托互联网技术的动画教学的改革,使得老师在动画教学中能够更好的发挥自身教学优势,学生在动画学习中也得到显著的提高。本文就互联网时代下的动画改革展开探讨。  关键词:动画教学;互联网;改革  引言  科技进步带动了互联网技术的普及,人们的生活也随之发
期刊
摘 要:对于以收听率 为发展前提的广播电视台 来说,广播覆盖效果好是收听率提高的重要保证,但是受多方面因素的影响,广播电视台的广播覆盖效果并不理想,且监测和记录也存在较大的难度,这就需要研制针对广播覆盖效果的远程监测记录系统。本文将首先从广播覆盖效果的影响因素和研制远程监测系统的必要性出发,分析远程监测记录系统的研制策略,并探讨其今后的发展趋势。  关键词:广播覆盖效果;远程监测记录系统;研制策略
期刊
摘 要:图形是一种艺术表现形式,是平面设计中的重要元素,在平面设计上起着非常重要的作用,创造性地运用图形可以极大地提升作品的内在品质。  关键词:图形;平面设计;作用  如何让平面设计的作品具有感染力和视觉冲击力,图形在其中所起的作用无疑是非常重要的,是值得我们探讨和分析的。  一、图形的特点  1.构成元素多  宏观概念上的图形指的是构成或描述某种图案的各种图元,它能够以任意形式或者多种排列组合
期刊
摘 要:当前,正处于科学技术飞速发展的阶段,科技的发展带来了很多包括虚拟现实技术这样的产物。这项技术的出现及其应用让环境设计发生了前所未有的改变。将虚拟现实技术应用到环境艺术中去,不仅能够简化设计的过程,还在一定程度上提升了设计的效率。然而,就目前来说,虚拟现实技术还未到达很成熟的阶段,并且在一些技术限制下设计行业内的工作人员未能完全或是熟练的掌握虚拟现实技术的相关特征,在应用时就容易产生一系列问
期刊
摘 要:信息技术的发展是十分迅速的,并且,飞速发展的信息技术给今天人们的生活带来了极其重大的变化,对于人们的现代物质生活与精神生活追求都带来了很大的改变。数字化时代,现代数字传媒技术的应用为人们的生活带来了便利。本文主要介绍在现代艺术设计中,数字媒体技术的应用,并说明数字媒体技术在现代艺术设计中的影响。  关键词:数字媒体;艺术设计;能力;内容;设计形式;设计手段  一、从设计思维角度来看,设计能
期刊
摘 要:科技的飞速进步使我们步入了互联网时代,电子商务紧随时代潮流应运而生。在经济全球化的形式下,为了高效的完成经济往来,电子商务成为不可或缺的平台。网络的普及使电子商务成为未来经济发展的重要方式,利用互联网进行高效的办公成为更多人的选择,而电子商务是以数字媒体为载体所进行的线上活动,因此数字媒体技术可使电子商务进行有效发展。  关键词:互联网+;数字媒体技术;电子商务  一、电子商务  电子商务
期刊