浅谈数据挖掘

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:youxiing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:数据挖掘是从海量数据中分析发现具有特定的模式、关联规则关系以及异常信息所表达出来的特点功能等在统计学有意义的结构和事件。该文简要分析介绍了数据挖掘的含功能、技术及其应用等。
  关键词:数据挖掘 技术 应用
  中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2013)04(c)-0054-01
  数据挖掘是在信息的海洋中从统计学的角度分析发现有用的知识,并且能够充分利用这些信息,发挥其巨大的作用,从而创造价值,为社会生产服务。数据挖掘工具能够扫描整个数据库,并且识别潜在的以往未知的模式。
  1 数据挖掘
  数据挖掘是与计算机科学相关,包括人工智能、数据库知识、机器学习、神经计算和统计分析等多学科领域和方法的交叉学科,是从大量信息中提取人们还不清楚的但具有对于潜在决策过程有用的信息和知识的过程[1]。数据挖掘能够自动对数据进行分析,并归纳总结,推理,分析数据,从而帮助决策者对信息预测和决策其作用[2]。
  对比数据挖掘及传统数据分析(例如查询、报表),其本质区别在于:前者在没有明确假设的前提下通过挖掘信息,提取有用的资料,并提升到知识层面,从而帮助提供决策支持。所以数据挖掘又称为知识挖掘或者知识发现。数据挖掘通过统计学、数据库、可视化技术、机器学习和模式识别等诸多方法来实现丛大量数据中自动搜索隐藏在其中的有着特殊关联性的信息[3]。
  2 数据挖掘技术
  数据挖掘有许多挖掘分析工具,可以在大量数据中发现模型和数据间关系,常用数据挖掘技术包括:聚类分析和分类分析,偏差分析等。
  分类分析和聚类分析的主要区别在于前者是已知要处理的数据对象的类,后者不清楚处理的数据对象的类。聚类是对记录分组,把相似的记录在一个聚集里,聚集不依赖于预先定义好的类,不需要训练集。分类分析是预先假定有给定的类,并假定数据库中的每个对象归属于这个类,并把数据分配到这个给定类中。通过分析训练集中的数据,准确描述每个类别,并进行建模、挖掘分类规则,并依据该分类规则,划分其他数据库中的数据类别。聚类分析是非監督学习,不依靠预先定义的类和带类标号的训练数据集,实体对象集合依照某种相似性度量原则,归纳为若干个类似实体对象组成的多个类或簇的过程,不同类中的数据尽可能存在差异,同类中的数据之间各个数据尽可能相似。
  存在大量数据的数据库中,数据中存在着偏差,而在偏差中也包括了大量的知识。偏差分析是当数据库中存在异常行为,就显示出要采取预防措施;否则,正常的变化,则需要更新数据库中的记录[4]。
  3 数据挖掘方法
  要的数据挖掘方法包括决策树、遗传算法、人工神经网络、近邻算法和规则推导等。通过描述和可视化来对数据挖掘结果进行表示。
  决策树是以实例为基础的归纳学习算法。着决策集的树形结构代表决策树,树型结构表示分类或决策集合。决策树是采用自顶向下的递归方式,树的非终端节点表示属性,叶节点表示所属的不同类别。
  遗传算法是基于种群“多样性”和“优胜劣汰”原则等进化理论,模拟生物进化过程的全局优化方法,将群体中将较劣的初始解通过复制、交叉和变异3个基本算子优化求解的技术,在求解空间随机和定向搜索特征的多次迭代过程,直到求得问题的最优解[5]。
  人工神经网络对人脑神经元进行模拟,依据其非线形预测模型,通过模式识别的方式展开,获取的知识需要存储在网络各单元之间的连接权中。人工神经网络能够完成分类和聚类等挖掘[5]。
  关联规则是进行数据挖掘的重要的可悲发现的知识,对于两个或多个变量的取值之间存在某种规律性,并对其进行可信度的分析,挖掘其中的关联关系。这对于发现数据中存在的各种有用的信息,发现其数据模式和特征,然后发现目标行为具有重要意义。
  4 数据挖掘的应用
  在医学领域,科学家从异构和分布式基因数据发现的基因序列的识别、发现基因表达谱数据中的差异表达基因,疾病不同阶段的致病基因等,运用各种数据挖掘技术了解各种疾病之间的相互关系、发展规律,总结治疗效果这对疾病的诊断、治疗和医学研究都是很有价值的。在零售业/市场营销,通过对顾客购物篮的分析,把顾客经常同时买的商品放在一起,帮助如何摆放货架上的商品,挖掘购买商品的关联关系,规划如何相互搭配进货,促销产品组合等商业活动[6]。
  数据挖掘在生物信息学中有着广泛的应用。生物信息学就是通过对生物学实验产生的海量数据,进行分类、处理、分析和存储,达到深入理解生命科学中基于分子水平的生物信息的生物学意义。如差异基因表达检测的基因芯片,就是具有高通量的特点,并同时能够产生许多生物学数据,在其中蕴含着丰富的生物学意义。分析和挖掘基因芯片数据,检测差异表达基因在不同环境条件的异常表达值,能够生层次的了解生物学知识,提高对生命科学研究的科学性和效率。对癌症差异基因的分析结果分析,能够更好的检测有关疾病,并根据相关疾病的基因特性,就能有针对性的进行个体化治疗,开发个体化的新药。
  进入2013年,有许多媒体都在称之为“大数据元年”。大数据也就是拥有庞大的数据信息,事务数据量大规模增长,而且大数据是要处理大量的非规范化数据,数据挖掘和分析是必不可少的。爆炸性的大数据的产生,可能会改变人们的思考方式,也重塑了人类交流的方式[7]。
  5 结语
  数据挖掘技术能自动分析数据,广泛应用于各个企事业单位,分析调查大量数据,分析企业经营对社会,经济和环境的综合影响,并预测企业未来的发展趋势,从数据仓库中揭示出数据之间的潜在价值的规律性,形成知识发现,为决策管理提供依据。
  参考文献
  [1] 孟晓明.浅谈数据挖掘技术[J].计算机应用与软件,2004(8).
  [2] 丁样武,杨莹.数据挖掘在医学上的应川[J].郧阳医学院学报,1999(3):130-132.
  [3] 黄晓霞,萧蕴诗.数据挖掘集成技术研究[J].计算机应用研究,2003(4):37.39.
  [4] 王阳,张春华.数据挖掘技术、应用及发展趋势[J].信息化与网络建设,2003(4).
  [5] 任承业.校园信息系统中数据挖掘的研究与应用[D].广州:暨南大学,2005.
  [6] 唐晓萍.数据挖掘与知识发现综述[J].电脑开发与应用,2002(2).
  [7] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究月发展,2013(1).
其他文献
当前国际金融发展的一个重要趋势是从分业经营向混业经营转变,在现阶段,中国金融业在坚持现行法律框架下的分业体制的前提下实践混业经营具有很强的现实意义。
给排水管网的安装是道路建设中的关键,随着市政道路工程的迅速发展,对于给排水管道来说,安装质量将决定其使用寿命。该文根据工程施工实践,就市政道路给排水管网的安装施工技术进
我国自2001年成功加入世贸组织之后,对外经济交往日益频繁,在跨国经济交易当中,国际商务谈判这一环节显得越发重要。想要促进国际商务谈判的成功,就需要对中西方文化差异展开
针对商业银行抵债资产核算中存在的问题,应按照谨慎会计原则科学核算抵债资产,完善抵债资产处理制度,强化对抵债资产的管理。
村史馆,是弘扬社会主义核心价值观、传承和保护优秀历史文化、促进农村经济社会发展的有效载体。利用这一载体,通过展示名人志士的光荣事迹,反映农村群众艰苦创业的光辉历程,将抽
报纸
证明了集合上的等价关系与由此产生的商集所确定的等价关系的同一性;证明了集合的划分与它确定的等价关系所产生的商集的同一性.
期刊
面对快速城市化导致的巨额资金需求,以土地作为担保和偿债来源举债成为近年来中国地方政府的选择,这种行为可称为一种新的"土地融资"方式。本文实证发现土地出让收入能促进城
在医学上没有正确的诊断,就没有正确的治疗。针对收集的确诊病例多,因假阳性或假阴性等造成误诊和漏诊的情况,以及根据诊断匹配时的要求不同,提出一种基于商集统计Roughsets