浅谈数据挖掘技术及其应用

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:Moon_____light
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 數据挖掘就是从海量数据中提取潜在有趣模式的过程。数据挖掘技术现已广泛应用于零售业、金融业、电信、网络安全分析、农业、医疗卫生等领域,研究十分广泛。
  关键词: 海量数据;数据挖掘;应用研究
  【中图分类号】 TP311.1 【文献标识码】 A【文章编号】 2236-1879(2018)14-0178-01
  一、数据挖掘概念
  数据挖掘比较公认的定义是由U.M.Fayyad等人提出的:数据挖掘就是从海量数据中提取潜在有趣模式的过程[1]。还有一些术语,具有和数据挖掘类似但稍有不同的含义,如数据库中知识挖掘、知识提取、数据/模式分析、数据考古等。数据挖掘技术最初是面向应用层面的,不光可以实现检索和统计专门数据库的操作,还能够在大量的数据集中实现小型、中型乃至大型系统的分析、归纳、推理等工作。
  二、数据挖掘的基本任务
  数据挖掘的目的就是发现有用的知识(即概念、规则和模式)。数据挖掘的基本任务主要有以下几个方面:
  (1)分类与预测。
  分类属于有监督的学习,在构建分类模型之前,在数据源中选取训练集数据并作分类标记,然后运用分类模型对训练集数据进行分类,实在是按照样本属性相近的划入一类,最后将完成训练的分类模型应用到在未知类别的数据集中,获得相应的分类。预测是依据历史数据和现有的数据建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
  (2)聚类分析。
  聚类分析是在识别数据的内在规则后,将数据分成相似数据对象组,从而获得数据的分布规律,划分的原则是不同组间距离尽可能大,组内距离尽可能小。聚类分析进一步是打算从一组杂乱的数据中发掘隐藏其中的分类规则。聚类分析与分类模式模型不同,分类模式是使用有标记样本构成的训练集的一种有监督学习方法,则聚类模型是使用在无标记的数据上的一种无监督学习方法。近年来,聚类分析在图像处理、商业分析、模式识别等有广泛应用。
  (3)关联规则。
  关联分析是通过对数据集中数据之间隐藏的相互关系的分析,揭露了具有相同类别的数据之间未知的关系。关联分析就是将给定一组项集和一个记录集合,通过对记录集合的分析,推导项集间的相关性,侧重确定数据中在不同领域之间的联系,并找出符合用户给定的最小支持度和最小置信度的依赖关系。著名的Apriori算法就属于目前关联规则中最常用的算法模型之一。
  (4)时序模式。
  时间序列预测是一种依据事物过去的历史资料记录延伸到未来的预测,是以时间序列所能反映现象的发展过程和规律性,建立比较精确地反应动态依存关系的数学模型,然后进行引伸外推,预测其发展趋势的方法。
  (5)偏差检测。
  偏差检测,也称异常检测,主要是从数据中提取其中的偏差和异常。偏差检测的方法主要有:(1)基于邻近度的技术;(2)基于模型的方法;(3)基于密度的技术。
  三、数据挖掘的应用领域
  数据挖掘技术现已广泛应用于零售业、金融业、电信、网络安全分析、农业、医疗卫生等领域。
  (1)零售业方面:该方面的应用最早是在美国,超市运用数据挖掘分析售货记录从中发掘有关购买商品的一些特征,来调整摆放商品的位置,提高了销售额。
  (2)电子商务方面:利用数据挖掘技术来分析系统中客户购买记录,得到如学生、白领、教师等不同客户群体,然后按照客户群体的划分来提供个性化的促销活动。
  (3)金融业方面:美国花旗银行运用数据挖掘来智能分析银行信用卡业务数据来区别客户信用等级,其恶性透支减少了,且每年避免的损失达十几亿美元。结合分析客户的刷卡记录之后的结果实现对客户的流失风险的预测;运用数据挖掘来识别和判断非正常的交易,有效地减少客户和企业的意外损失;通过分析客户消费特点来推荐合适的理财产品。
  (4)通信方面:为了发掘客户潜在需求,通过对以往客户行为特征数据挖掘分析,应用挖掘结果在风险可控范围内来制定针对性的套餐设计与定价,提高了套餐的接受度,避免了老客户的流失和增加了新入网数,实现了业务量的提升。
  (6)网络安全方面:计算机网络安全管理部门在信息系统的安全管理中,运用基于规则集的访问控制技术和系统网络日志文件,通过数据挖掘技术检测出系统未授权用户非法访问受保护数据,来检测黑客程序的入侵。
  (7)在农业方面,通过卫星图片作为信息源预测森林火灾的路径和趋势。Umama-heshwaran et al.[22]利用卫星拍摄的图片来研究森林火灾的产生以及发展时的动态变化过程,开发了一个实时监测系统,能够实现对森林火灾变化的检测和跟踪。
  (8)在医疗方面,Maria-Luiza Antonie[2]通过对比数据挖掘技术中的关联规则和神经网络来乳腺癌图片的实验结果,分类精确率都能达到70%,而关联规则效果更好。通过有效的乳腺癌图片的分类可以减少医生准确获取有效信息的工作量。
  (9)在Web数据挖掘中,将数据挖掘应用到搜索引擎,产生智能搜索引擎,给用户提供一个高效、准确的Web检索工具。还将数据挖掘用到站点访问模式分析、网页内容自动分类、聚类等[3]。
  参考文献
  [1] 王国勋.基于多目标决策的数据挖掘模型选择研究:[博士学位论文].成都:电子科技大学,2013.
  [2] 丁冲,范钧,栾添.图像数据挖掘相关研究综述—概念和应用[J].统计教育,2008(12):8-12+7
  [3] 杨占华,杨燕.数据挖掘在智能搜索引擎中的应用[J].微计算机信息,2006(12):244-246.
其他文献
摘 要: 相信每一名儿童,让他们尽情的去表现自我,这是建立幼儿自信心的重要的手段。注重儿童的个性发展,教师应努力把儿童培养成德、智、体、美、劳全面发展的人,为让他们健康快乐的成长而努力。舞蹈教学有利于孩子各方面的发展,我们应利用舞蹈教学使每位学生更加健康快乐的成长。  关键词: 舞蹈;审美能力;体能;意志品质;合作意识  【中图分类号】 G613.7 【文献标识码】 A【文章编号】 2236-18
期刊
摘 要: 随着我国素质教育的推广,在小学的科学教学的核心内容中强调了学生观察能力的重要性。小学科学课的设立主要的目的是为了培养学生的科学专业素养,同时也成为了小学生最重要的启蒙教育之一。学好科学课程最重要的条件就是学生优秀的观察能力,只有学生通过仔细的观察才能够发现科学课程中的奥秘和魅力。所以说,我国小学科学教育应该将培养学生观察能力作为前提,帮助小学生养成良好的学习习惯,并且与学生强调科学教学中
期刊
摘 要: 为了生产清洁燃料而精心设计的复合载体,首先发展的是硅酸盐ETS-10和氧化铝AlPO4-5的结合。相比较于纯粹的氧化铝,B作为中等酸性强度的典型酸性地点它自己拥有一定的数量。对于解决难于控制的迁移4,6-DMDBT是很有效的。此外,它能够阻止镍尖晶石形成,改善金属-载体相互作用和更加有利于钨聚合物形成,这有利于促进镍钨的合成。  【中图分类号】 TE624.4 【文献标识码】 A【文章编
期刊
摘 要: 小学生身心发展尚未成熟,比起其他学段的学生,他们更加注重他人对自己的评价,在小学语文教学中,语文教师大多保持着严肃的形象,教师的权威性已经在学生心中根深蒂固,教师对于学生的教育通常是依赖于权威,用“俯视”的态度看待学生,语文课堂教学中对学生的赏识较少,批评很多,这样会严重学生学习的积极性,直接影响到课堂教学的效率,对此小学语文教师要扭转传统观念,对学生开展赏识教育,本文就小学语文教学中的
期刊
摘 要: 群众文化事业是我国文化事业的重要构成部分,而群众文化是我国精神文明建设的重要内容,也是建设社会主义文化强国的核心任务之一,对于我国文化事业的发展具有重要意义和深远影响。近几年来国家也加大了对群众文化事业的投入力度,在各地积极建立了群众文化艺术馆,因此要以管理创新推动我国群众文化事业的发展。本文从树立新的文化发展观牢牢把握正确的群文工作方向和弘扬改革创新精神提高群文工作的能力和水平以及丰富
期刊
摘 要: 强化企业财务管理,提高企业运营质量已成为现代企业的工作重心。本文从对财务管理的整体认识出发,结合目前我国中小企业财务管理中存在的问题,从完善法律法规、转变企业财务管理理念、采用科学的融投资策略等方面总结出强化企业财务管理、提高企业运营质量的对策建议。  关键词: 财务管理;运营质量;内部管理;中小企业  【中图分类号】 F275 【文献标识码】 A【文章编号】 2236-1879(201
期刊
摘 要: 互动式教学模式体现了教师课堂教学的初衷,该教学方法主要是通过与学生互动促进师生之间的活动,促进教学效率的提升。随着素质教育的不断深入推广,小学数学的教学任务在要求教师引导学生理解和掌握课本中的数学基础知识的同时还要求教师能帮助学生在数学学习中培养和发展学生自身的综合学习能力。为了更好地完成教学任务,教师需要不断地对数学教学方法进行探索与创新,互动式教学因其特殊的教学形式和显著的教学效果而
期刊
摘 要: 对于刚进幼儿园的小班孩子,引导孩子形成良好的行为习惯是幼儿园教育教学工作的重点。平时,教师要关注小班幼儿的生活习惯、卫生习惯、学习习惯、品德习惯,通过给予适当期望,开展科学游戏,实施合理评价,促进幼儿良好行为习惯的养成。  关键词: 幼儿;行为习惯;策略  【中图分类号】 G613.2 【文献标识码】 A【文章编号】 2236-1879(2018)14-0161-01  幼儿,是祖国的希
期刊
摘 要: 煤矿行业自我国改革开放初期发展至今,一直以来是我国国家经济建设重要的基础资源。煤矿生产中应用的机电设备类型和数量都很多,为了提高生产效率,煤矿企业一般会使这些机电设备长期处于运行状态。机电设备的运行需要电能提供动力,所以煤矿生产过程会消耗大量能源,这不符合能源可持续发展以及节能降耗原则。变频节能技术与煤矿机电设备的结合恰巧能改善这一状况,使机电设备能源消耗量减少。  关键词: 煤矿机电设
期刊
摘 要: 近年来,反腐工作的卓越成效颇受老百姓欢喜,随着反腐败的深度和范围不断扩大,我国社会的各个方面都受到了“反腐倡廉”改革的强烈影响,尤其是宏观经济的发展。本文基于我国1998年至2013年我国31个省份的省际面板数据,首先利用个体固定效应模型对反腐败和外商直接投资的相关关系进行考察,然后运用格兰杰因果检验考察二者之间是否存在格兰杰因果关系。通过实证研究发现,二者存在显著的负相关关系,但不存在
期刊