数据挖掘技术分析及其应用评价

来源 :科学与财富 | 被引量 : 0次 | 上传用户:himiro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文在审视数据挖掘技术发展的重要性基础上,通过了解数据挖掘的概念,进而对现时所用的十三种数据挖掘技术依次进行分析。最后,通过评分表方式对数据挖掘技术多种进行了评价,并对研究结果进行了思考。
  关键词:数据挖掘;技术分析;应用评价
  1 前言
  随着互联网技术的飞速发展,让世界之内企业与企业之间的沟通、人与人之间的沟通越来越紧密,从而让世界经济、贸易、政治、教育等多种领域业务的发展都开始受到由先进互联网技术引领的大数据时代的影响。不论是行走在华尔街大厦中放声大笑的金融大鳄,还是在华尔街高楼下阴暗街角流浪的乞丐,他们都会在同一时间、同一地点留下非常多的信息。而这些信息如何获取、这些数据如何挖掘已经开始成为当代信息收集者所要思考的重要问题。通过利用数据挖掘工具从日常活动、工作、行为当中收集信息、汇总信息、整理信息、筛选信息、分析信息,从而达到获取真正有用信息的整个过程。
  2 数据挖掘技术分析研究
  2.1 数据挖掘的概念
  数据挖掘的概念将其定义为一种从具有各种不完全初始信息的、存在噪声等误导不稳定因素的、没有逻辑的和随机的拥有巨大数量体系的数据中,通过人为实证判断、科学化理论分析等手段提取这一集合中那些不为人知的或者无法评估其发生概率的,但是又对生产、经营、管理、销售等流程环节、公司决策存在有用性、实用性的信息和知识的过程。作者在下文当中将列举出数据挖掘中最常用和常见的十三种技术:(1)统计技术;(2)关联规则;(3)基于历史的分析;(4)遗传算法;(5)聚集检测;(6)连接分析;(7)决策树;(8)神经网络;(9)粗糙集;(10)模糊集;(11)回归分析;(12)差别分析;(13)概念描述。
  2.2 统计技术
  统计技术是在学科范围内运用最广的一种数据挖掘技术,由于其易操作、易分析、易掌握让这种技术的普及化不断加深。其具体的运用方法如下:其主要通过建立假定情况下的数据模型方式,然后依据这种假定的分布以及其概率模型进行数据挖掘。
  2.3 关联规则
  数量与数量之间都是存在关联的,有些是线性的、有些是非线性的。如果说两个变量或者多个变量之间存在着这样一些关系,我们就称之为关联或者其具有规律性。通过分析管理的数据和他们背后之间的联系,能够充分实现透过表面看本质,在把握表面信息同时放长线钓大鱼发觉问题背后潜在的信息,从而实现将这种数据挖掘技术切切实实的用到实际当中。
  2.4基于历史的分析
  这种方法也可以简称为经验的方法,它是一种根据前人所研究的结论、所收集数据的方式、所获得信息的来源再重新整个对同一个问题或者其他领域可以适用的问题进行研究。通过这种方法能够大大的节约现时工作量和时间,并且能够通过分析、研究收集来的数据加速项目进展。使用这种方法通常寻在着的主要的问题是这些历史数据是否能成为这种问题分析的依据。
  2.5 遗传算法
  这种方法的产生是一种基于进化理论的方法,它假设这些数据之间能够相互遗传、相互复制、相互影响、相互变化,并且结合现有分析方法选择能够相互遗传、相互复制、影响、变化的分析方法进行解决问题的方式。这种方法产生的依据是:这些方法和数据能够根据自然规律的影响产生优胜劣汰、适者生存,从而能够让当前筛选出来的样本中拥有最为关键的数据和要素,最终能够提高整个样本的适配比率,让研究的整个过程更具有效率。
  2.6 聚集检测
  这种方法是将具有类似性质、类似变动规律、类似形态的种种数据依据其固有的系列特征进行整体分类,并向这些由多种具有同种规律的数据分为一类,简称为聚集。这些被选择的每一个聚类,数量一般都是要保持一定比率的,从而保持每个样本之间的可比性。最后,通过比较每一个聚集之间的数据差异就能够找出最终研究的目标,从而解决了成本和时间问题。
  2.7 连接分析
  图论是这种连接分析方法的核心思想,它旨为这种方式找到最为可靠、最为便利的方法,而不是一直在追求更为完美的方法,而是适可而止去进行下一步的规划。通常有些方法看来是不是很完美的,但是却能够让问题得以解决。连接分析就是一直在试图寻找这样一种看似不完美却能够将问题解决的方法。
  2.8 决策树分析法
  决策树分析法是一种定性的方法,其通过将整个问题比喻成一颗大树上的枝杈,然后将所有问题的解决比作这个大树能够健康、茁壮的成长。例如,现在有一个问题解决有三种途径,而每种途径有存在三种方法。然后对每条线路中给予成功几率的赋值,然后对总体成功几率进行相乘得到最后的结果,选择最大几率的方法作为这个问题的能够最终得到解决的方法。
  2.9 神经网络分析法
  神经分析法在其结构上是将一个神经的网络组成部分划分成输入层和输出层以及隐含层三个部分。输入层当中每个节点都会对应相应预测的变量。从而,让输出层节点能够对应多个目标的变量,从而作为这些问题解决的多种方法。然后,在输入层与输出层两者之间设计一个隐含层,将其作为一种潜在影响因素,也可以说是误差变量、影响变量。这个隐含层的总层数以及每层与每层交点之间的个数就会决定整个神经网络总体复杂的程度。
  2.10粗糙和模糊集方法
  这两种数据挖掘的方法都是为了让数据所收集的范围更加广泛,通过引入一种模糊性的边界,让整个数据含量更加的充分, 从而让整个研究过程更加具有科学性。其具体设计的方法主要就是引入了数据挖掘分类系统,从而让所有数据样本成为等价的,然后在大范围内进行随即筛选,为总体目标的证明和解释提供有力的依据。
  2.11 回歸分析法
  回归分析法可以分为:一元、二元的线性回归方法和多元线性回归方法。这一分析方法多用于解决具有明确数量关系、数量影响大小比较具有规律的一些问题的研究。这种数据方法也是在所有领域的实证研究当中都会用到的,现阶段比较规范性的实证分析都会采用线性回归和稳健性检验的方式,从而证明数据之间的关系假设的存在。这种方法易于操作,例如:最简单的线性回归模型就是大众从小学学到的一元一次方程。   2.12 差别分析
  差别分析的研究目的通常是为了发现、探索数据当中存在的一些异常的情况,例如噪音的数据,欺诈的数据等等这些异常的数据,通过对立面问题研究解决正面问题。
  2.13 概念描述
  这种方法是一种对某類对象的潜在的内涵进行基本的描述,然后通过概括这类对象一些明显的相关联的特征的方法。现阶段,理论界用到的概念描述可以分为:第一,特征性描述;第二,区别性描述。第一种主要用于描述共同特征;第二种主要用于描述不同类的对象所存在的区别,从而对相同类和不同类对象的整个对象集总结出他们的共性,得到研究结论。
  3 数据挖掘技术应用评价
  人们都非常急切的需要、去寻找一些存在于数据集当中的数据,并且想方设法去找出适合问题的解决方法,让这些数据能够被人所用,转化为人们所要研究的结论。那么,在众多的研究方法当中如何选取合适的方法就成为一项技术是否能发挥其优势、一个问题能否得到有效解决的关键。
  3.1 数据挖掘技术的应用选择
  在此,作者首先将众多数据分析方法依据其作用的范围进行总结,具体作用标准分为:(1)分类(2)预测(3)相关性分析(4)聚集(5)描述。然后作者选择出在日常研究当中使用范围更加广泛、利用率最为频繁的六种数据挖掘技术,依次为:(1)统计技术;(2)关联规则;(3)基于历史的分析;(4)决策树分析法;(5)回归分析法;(6)差别分析。最后依据其作用进行其所具备功能数量的排序,依次为:(1)统计技术具备4种功能;(2)关联规则具备3种功能;(3)基于历史的分析具备5种功能;(4)决策树分析法具备4种功能;(5)回归分析法具备5种功能;(6)差别分析具备4种功能。从而确定其应用价值。
  为了验证作者所得出的结论,作者又选取了一种评分标准,即按照其性能对其进行评分,具体评分标准为:(1)模型易理解性;(2)模型易训练性;(3)模型易实施性;(4)通用性;(5)有用性;(6)产品可获得程度。然后依据这一评分标准,对上述六种分析方法进行评分的结果为:(1)统计技术B级别;(2)关联规则B级别;(3)基于历史的分析A级别;(4)决策树分析法C级别;(5)回归分析法A级别;(6)差别分析A级别。从以上分析结果当中,可以发现回归分析法、基于历史的分析方法、差别分析方法是三种最为有效的数据分析方法。
  3.2 数据挖掘技术应用的思考
  数据挖掘的作用可以依据其应当具备的功能分为两种类别:一种叫做预测型的模式;另一种叫做描述型的模式。这些模式又能够根据其具有的相关的功能以及其在实际运用当中发挥的作用分为以下几种类别:数据分类,数据估值,数据预测,变量之间的相关性分析,变量之间的重要性分析,变量关系的时间序列,对变量之间变化关系的描述、可视化统计等等形式。那么,正确的方法并不等同于最好的方法,在实际进行数据挖掘过程中,实际问题实际分析,并对每个实际问题安排属于自己的方法才能让研究更加顺利。
  4 结语
  数据挖掘技术是一种新技术,其与时俱进与当代经济发展、社会发展、世界发展都存在着紧密的联系,选择合适的数据挖掘技术是解决问题的关键,也是解决问题的有效途径。当代学术界,在正确面对数据挖掘技术的同时也要善于发现数据发掘技术人才,从而数据挖掘技术能够正确、有效的运用在多个学科和领域。
  参考文献
  [1] 夏邦贵,刘凡馨. Access2003数据库开发经典实例精解. 机械工业出版社,2006-6-1.
其他文献
本文基于单向散列函数的特性,提出了一种新型的身份认证方案.该方案不仅能够提供通信双方的相互认证,而且能防范重放和窃听等攻击手段.
摘 要:文章根据杨树插穗条的培育与微量元素的运用、覆膜扦插这三个方面进行探讨,研究了杨树扦插育苗技术,为了保证扦插育苗质量与苗木的形状,增强苗木的产量,促进植物的茁壮成长,从而增加森林绿化,增强环境保护等需求,必须广泛应用杨树扦插育苗技术,运用专业的技术进行林业施工,促进林业的发展。  关键词:杨树;扦插育苗;造林;运用  1 杨树插穗条的先进培育方法  以大青杨插穗条为例。在室内:可直接在家庭炕
逍遥丸(水丸)是《中国药典》收载的中成药,由柴胡、当归、白芍、白术、茯苓、炙甘草、薄荷七味中药细粉与生姜煎液混合后制成,具有舒肝健脾、养血调经之功效,适用于肝郁脾虚所致的
自从在油炸及烧烤的淀粉类食品中检测到具有潜在致癌风险的丙烯酰胺副产物后,发展简单实用的丙烯酰胺检测方法的研究备受重视.羟基琥珀酰亚胺丙烯酸酯(NAS)为半抗原,成功制备了对
建立了同步辐射X-荧光(SRXRF)定量测定生物样品等电聚焦(IEF)分离后蛋白条带内的微量元素Fe、Cu和Zn的方法.用薄层聚丙烯酰胺凝胶分离人血红蛋白后,用SRXRF测定了各亚型条带内的
详细介绍了巯基卟啉自组装膜的几种制备方法,评述了不同制备方法的优缺点;对卟啉自组装膜在电荷转移、分子氧电催化、分子光电器件等领域的研究进展进行了评述,引用文献54篇。
摘 要:坚持走群众路线是我党能够取得成功的关键,随着我党成为唯一执政党,其历史地位已经发生了很大的变化,同时经济社会的发展,也促进了我党的建设发展,只是在安逸的环境中,我党少数成员,在一定程度上流露出了脱离人民群众的倾向,这对我党未来发展十分不利,所以我们要坚决制止这种行为,深化群众路线的学习,开展各种深化群众路线的活动,我党正是由于群众的支持,才会带领全体中国人们取得了战争的胜利,为此一定要将坚
本文首先介绍了用于智能报表系统的知识概念;随后探讨了报表生成智能代理的集成知识表达方法;提出了报表框架匹配的评价函数和相应的推理算法;并给出了基于多代理的原型系统.
目的:探讨血清TNF-α、IL-1β在颅脑损伤中的表达,为颅脑损伤的诊断和治疗提供理论依据。方法:60例颅脑损伤患者中,中型颅脑损伤30例(中型损伤组),重型颅脑损伤30例(重型损伤组)。测定
摘 要:在改革开放的三十年来,我国现阶段正从“走出去”向着“走进来”进行转变,弘扬中国传统文化,展现中华之美是当下的主题。竹子在我国文化中有君子的象征意义,因此用竹子编织的器具等产品广受消费者欢迎。毛竹是我国重要的经济作物之一,增加其种植技术的科学性和管理的有效性对于提高毛竹的经济价值有重要的意义。下文针对其种植和管理两个方面进行讨论,仅供交流参考。  关键词:毛竹;种植;管理  “竹,贵于真诚贵