浅析数据挖掘技术的主要功能及算法

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:cododo2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]随着当前现代科技的发展,计算机在各方面都得到了广泛的应用,计算机给人们的生活带来了翻天覆地的变化,人们对计算机的重视程度越来越高。但是应该看到,计算机一方面带来了巨大的便利条件,另一方面也带来了很多问题,如果能够对这些数据进行深入的分析,并且从中找到潜在的规律,会对管理者决策起到非常大的作用。本文主要是在分析数据挖掘技术主要功能的基础上,提出了四点关于数据挖掘技术的算法。
  [关键词]数据挖掘 计算机 算法
  中图分类号:TV55 文献标识码:A 文章编号:1009-914X(2017)06-0138-01
  正文
  数据挖掘功能主要是用于指定数据挖掘任务中要找的模型类型。数据挖掘模式可以是说明数据库中数据一般特性的描述性挖掘,也可以是用于在当前数据上进行预测和推断的预测性挖掘。
  一、数据挖掘技术的主要功能
  1、描述功能
  所谓的类/概念描述就是指将数据与类或概念相关联,对每个类/或概念用精确的、简洁的、汇总的方式进行描述。采用的描述方法主要有:数据特征化、数据分区和数据特征比较。数据特征化就是目标类数据的一般特征或特征的汇总。通过数据库查询收集用户指定类的数据,采用多种方式实现数据特征化和汇总,也可以运用多种形式提供数据输出,也可以采用规则形式或者概化关系进行结果描述。
  2、分类预测功能
  分类就是找出描述并区分数据类或概念的模型,这样可以较好地使用模型预测类对未知对象类进行标记。基于对训练数据集分析的导出模型可以表示为多种形式,例如:判定树、数学公式、分类规则和神经网络等。其中判定树是一个类似于流程图的树结构,在这个树结构中,树叶代表类分布或者类,分支代表测试的一个输出,每个节点代表一个属性值上的测试。判定树容易转化为分类规则。数据对象的类标记可以用分类来预测,预测通常指被预测的值是数据数值。
  3、聚类分析功能
  聚类就是把物理或者抽象对象的集合分组成为由类似的对象组成的多个类的过程。首先就是要把数据对象分组为多个簇或者类,不同簇中的对象差别大,而同在一个类或者簇中的对象相似性较大。就数据挖掘来讲,通过聚类分析用来获取数据分布情况,可以对每个簇进行观察,可以选定一些需要进一步分析的簇。同时,聚类分析还可以作为其他算法的预处理步骤。
  4、演变分析功能
  数据演变分析描述行为随时间变化的对象或者趋势,并且对此建立模型。演变分析可能包括时间相关数据的类聚、关联、区分以及特征化等,这些分析的不同特点包括序列或者周期模式匹配的数据分析、时间序列数据分析以及基于类似性的数据分析。
  二、数据挖掘技术分析方法
  1、聚类分析方法
  通过数据聚类分析把相似性特点的数据归为若干个簇,这些簇具有最小的组间相似性和最大的组内相似性。换句话说就是要让同一聚类中的数据达到最大的相似性,讓不同类聚中的数据达到最大的不同。聚类分析与分类是不同的,对目标数据库中的数据进行分类的时候,我们是知道存在哪些类,然后标记出来每一条记录属于哪一类。可是聚类是不同的,聚类预先不知道目标数据库中有多少类,以某种度量为标准的相似性,将所有的记录组成的类在不同类聚之间实现最大化,而在同一类聚之间实现最小化。 依据聚类的数据情况,可以把聚类分为属性聚类和对象聚类两类,属性聚类常常根据相似系数来度量相似性,对象聚类则通常用距离或相似系数来度量相似性。
  2、关联分析方法
  关联是指多个数据项之间联系的规律。关联规则挖掘是数据挖掘中最成熟的技术之一,同时还是数据挖掘的主要研究方向之一。关联规则挖掘可以发现数据库中两个或者多个数据项之间的关系,可以用来寻找大量数据之间的相关性或者关联性,进而可以对事物某些属性同时出现的规律和模式进行描述。由于关联规则不收因变量的限制,所以在数据挖掘中关联规则得到了广泛的应用。关联规则可以进行多维数据之间的相关性分析,所以关联规则适用于发现大型数据集中数据之间的关系。
  3、分类分析方法
  在数据挖掘技术中分类分析技术的使用率非常高。分类分析中首先要确定类别概念,根据类别的特征构造模型,标记好每个类别,该标记代表着各类数据的综合信息。然后对簇中对象的共同点以及各个簇间对象的区别加以描述。
  4、决策树方法
  决策树方法是数据挖掘的一个活跃领域。决策树是一个类似于流程图的树结构,是一种基于实际数据的归纳学习算法,解决以离散型变量作为属性的一种学习方法。决策树的每个分支代表一个测试输出,每个内部节点表示属性上的一个测试,而每个树叶节点则是代表着类的分布或者一个类。有代表性的决策树算法主要有C4.5和ID3算法。与其他的挖掘方法相比,决策树模型简单易懂,而且容易获得更好、更详尽的分类准确率,而且决策树方法的处理速度较快。但是决策树方法也有自身的不足,需要对连续型变量进行转换,比较难预测;当类别较多的时候,错误增加也会较快;要做很多的预处理工作才能处理时间顺序的数据等。
  5、遗传算法
  这种算法是一种全局优化算法,易于和其他模型结合,具有非线性求解和隐含的并行性等特点。遗传算法模拟生物的遗传机制和自然选择,采用遗传变异、自然选择、遗传结合等设计方法,通过一组遗传算子把需要求解的问题在求解空间上迭代搜索,找到问题的最优解 。目前来讲,遗传算法在神经网络、工业优化控制、模式识别、机器学习等各方面都得到了广泛的应用。当前的研究更侧重于遗传算法与局部优化算法的结合、算法的收敛性证明以及遗传算子的设计等方面的研究。
  三、结论
  随着人们对信息数据量的急速增长从而数据挖掘技术也随之应运而生,这使得人们对知识与信息的渴求得到了进一步满足。对于如何才能快速高效的获取知识,对于信息处理技术来说尤为重要。
  参考文献
  [1] 数据仓库与数据挖掘技术[M].电子工业出版社,2002.
  [2] 王丽珍等编著.数据仓库与数据挖掘原理及应用[M].科学出版社,2005.
  [3] 刘新平,刘存侠编著.教育统计与測评导论[M].科学出版社,2003.
  [4] 李雄飞,李军编著.数据挖掘与知识发现[M].高等教育出版社,2003.
其他文献
[摘 要]随着汽车制造工艺的不断改进和创新,汽车的内部结构越来越复杂,汽车维修不再是单纯的零部件更换,维修难度也在不断增加,探讨汽车维修技术的特征及应用具有重要的现实意义。本文主要介绍了现代汽车维修技术的特点阐述了制约我国汽车维修技术的因索提出了提升我国汽车维修技术的对策。  [关键词]汽车维修;检测;汽车;故障诊断  中图分类号:G712;U472-4 文献标识码:A 文章编号:1009-914
期刊
[摘 要]随着经济高速发展,科学技术也在不断创新中。对于水利来说其想要获得更快发展,工程施工技术上是制约其发展的重要因素,也对农田水利进一步发展产生重要影响。在本文研究中对现今农田水利工程难点和施工技术进行分析,能够对农田水利工程施工技术的应用提供一些建议。  [关键词]农田水利工程;施工难点;施工技术  中图分类号:S274 文献标识码:A 文章编号:1009-914X(2017)06-0125
期刊
[摘 要]针对特高含水后期水驱特征曲线上翘引起开发动态预测精度下降的问题,进行了多组物理模拟实验研究。实验数据表明,中高渗砂岩油藏条件下水驱特征曲线上翘时机受油水粘度比、渗透率和非均质性的影响,其中非均质性是主要的影响因素。  [关键词]特高含水;水驱特征曲线;上翘;采出程度;非均质性  中图分类号:TE357.6 文献标识码:A 文章编号:1009-914X(2017)06-0124-01  水
期刊
[摘 要]随着科技的进步与时代的发展,现代文明城市正在如火如荼的发展,但是就目前而言城市交通却很难满足实际需要,尤其是运输组织管理显得有些跟不上节奏。鉴于这一点,本文将会首先阐述当前城市轨道交通运输组织管理的实际状况,然后结合多年来的实际工作经验提出一些相关的优化措施,希望能够得到一些借鉴和参考。  [关键词]交通运输;城市轨道;组织管理;优化  中图分类号:U292 文献标识码:A 文章编号:1
期刊
[摘 要]机器人由一系列的关节和连杆组成。这些关节可能是移动关节,也可能是转动关节。它们可以按任意的顺序放置并处于任意的平面,连杆长度(包括零)也可以使任意的,可以被任意地扭曲,所以不同關节和连杆的组合就构成不同种类的模型机器人。为此,每个关节都要指定一个参考系,然后,确定从一个关节到下一个关节(即:从一个坐标系到下一个坐标系)进行变换的步骤。如果将从基座到第一关节,再从第一关节到第二关节,直至最
期刊
[摘 要]梨园水电站园水电站泄洪冲沙洞圆形有压段由进口事故检修闸门井及工作闸门室连接,全长1182.727m。本文对泄洪冲沙洞圆形有压段底拱120度范围混凝土模贴试验成果进行了分析和总结,采用混凝土模贴,有利于改善混凝土表面及表层质量,美观混凝土的表面,形成混凝土表面致密、颜色一致、坚实又均匀的理想效果,提高混凝土的耐久性,对同类工程具有一定参考和借鉴意义。  [关键词]泄洪冲沙洞;有压段;底拱混
期刊
[摘 要]本文分析了内燃机车柴油机曲轴轴瓦碾瓦的原因,并给出了预防措施。  [关键词]内燃机车 柴油机 碾瓦 曲轴  中图分类号:TV514 文献标识码:A 文章编号:1009-914X(2017)06-0133-01  内燃机车是通过柴油机曲轴旋转运动带动牵引发电机运转,发出三项交流电,经主整流柜整流后变成直流电,为走行部直流牵引电机提供电能。如果曲轴轴瓦发生碾瓦故障,曲轴将无法正常运转,整个机
期刊
[摘 要]抽油机井的系统效率是抽油机井能源利用水平的重要经验技术指标。本文从抽油机井供排关系方面分析了影响系统效率的主要因素,通过应用节能减速装置、电泵转抽等措施提高了抽油机井系统效率。对油田节能降耗具有较好的作用。  [关键词]抽油机 系统效率 沉没度 治理对策  中图分类号:TU113.6+43 文献标识码:A 文章编号:1009-914X(2017)06-0131-01  0 前言  抽油机
期刊
[摘 要]随着计算机网络技术的快速发展,电力系统的智能化和信息化成为我国信息化建设备注关注的领域。电力通信网络的稳定与否在一定程度上决定了国家电网运行的是否正常,同时也是国家安全稳定的重要前提。因为电力通信网络在建设中面向不同的网络,从而使网络数据也非常繁杂,影响了电力通讯的有序开展。本文主要是在基于B/S结构的基础上,对电力系统和模块进行了分析,进而实现电力网络通信运行的有序性。  [关键词]B
期刊
[摘 要]春夏季节是雷暴活动频发时节,尤其是七八月盛夏,雷电、强雷阵雨天气易造成人生危害,引发火灾、信息系统瘫痪等,并对公共设施、家用电器以及交通、网络等造成不可估量的损失。为防止和减少雷暴事故,我们应该了解掌握一些有关雷阵雨天气的成因及相关知识,从而做好防护措施,减少雷暴天气给我们日常生活、工作造成的危害。  [关键词]雷暴天气 成因 危害 防护措施  中图分类号:TV524 文献标识码:A 文
期刊