浅谈数据库技术中的数据挖掘

来源 :中国新通信 | 被引量 : 0次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着数字信息技术和计算机硬件技术中新存储介质和存储方式的不断发展,人类生活中的各类数据产生了爆炸式的增长,如何对这些数据进行整理和使用成为当前数据领域的研究热点,数据库技术的成熟与普及为这些庞大数据量的整理及挖掘带来了可能。但是传统的数据库管理系统和统计分析方法已经无法应对如此海量的数据,如何进行有效的数据挖掘还有待分析和整理。
  一、数据挖掘概述
  数据挖掘是数据知识发现的不可或缺的一个部分,其通过采用不同的分类手段和分析方法对大量数据进行分析,揭示它们之间的内在联系和发展趋势。数据挖掘是一门综合性学科,是随着人工智能技术和数据库技术发展起来的。其发展基础是超大规模数据库的出现、更加快速的计算机硬件突破、对巨大数据的快速访问需求及更为精确的数据机构算法。
  数据挖掘的主要任务就是对隐藏在数据中的模式进行发掘,描述当前数据的一般特性,并利用当前数据和历史数据对未来数据进行预测和分析。数据挖掘主要通过以下几种模式实现数据的分类处理:
  1.分类模式。该模式通过对训练数据集进行学习建立相应的符合模型特征的数据模型,进而建立模型规则、决策树或者数学表达式等,将新的数据按照上述规则进行数据分类和映射,实现不同数据的分类。
  2.聚类模式。该模式是利用数据的差别和相似性进行分类,主要针对未知的数据。具体实现为,将数据项按照不同类间的数据差别最大、同类间的数据茶杯最小的规则进行数据分类。该模式不依赖训练数据集和预先定义的类即可实现自动分类。
  3.回归模式。该模式类似于分类模式,但是不同点在于回归模式使用的是连续的预测值,而分类模式使用的是离散的预测值。回归模式优点在于将大量非线性问题进行变量转换变为线性问题,进而利用线性回归等处理手段进行模式归类,简化了归类算法。
  4.关联模式。该模式是通过利用预先已知的一套数据之间的关联规则对不同的数据进行挖掘,通过扫描前一次的数据库应用结果产生本次的扫描候选集,根据数据间的最小支持度和最小可信度实现不同数据间的关联。
  5.序列模式。该模式基于时间或者其他规律或趋势进行了建模和分类,是关联模式和时间序列模式的结合模式。这种模式主要在时间维度上对数据进行关联分类。
  6.偏差模式。该模式主要用来描述差异性数据。在某些情况下,差异型数据比普通数据更有使用和分析价值,这种模式就是对这种少数数据情况进行分析和归类的一种模式。
  二、经典数据挖掘方式
  具体数据挖掘的算法可以按照不同视角进行多种方式分类,这些视角主要包括生物学方法、信息论方法、集合论方法、最近研究趋势等。经过十几年的蓬勃发展,数据挖掘基本算法已经相对趋于成熟,而在其基础上进行的改进算法对数据挖掘的提升相对有限。
  1、神经网络算法。神经网络算法是生物学方向的一种经典算法,该算法通过某种规则对多个神经元进行关联,进而利用网络状态对外部输入信息的动态响应实现信息的处理,由于神经元具有分布式存储结构,故该种算法具有很强的容错性和鲁棒性。鉴于神经网络主要被用来获取分类模式,而该模式无法用明显的规则来表述,故这类算法的可理解性较差。同时由于要进行多次扫描和训练,故其在数据处理时间上具有明显的劣势。2、归纳学习。该算法以信息论为基础,通过对大量经验数据进行归纳和整理进行规则和模式的抽象总结,进而实现数据挖掘。C4.5是其中的一种经典决策树算法,其通过信息熵实现属性的分类,适用于大数据库中的学习和归类。3、粗糙集理论。该算法是一种用于对不完整、不确定数据进行表达学习和归纳的算法。该类算法不需要除所需处理的数据集合之外的其他任何先验信息即可实现数据的挖掘,对知识获取瓶颈的突破具有明显效果,可以发现差异性数据或者噪声数据的内在联系。
  三、数据挖掘研究热点及发展趋势
  鉴于数据库系统已经被广泛应用到各个领域,而各个领域又具有不同于其他领域的特点及需求,使得数据挖掘成为当前时期内信息系统领域研究的热点。尤其是在一些尖端科学及热门应用领域的数据库应用中的数据挖掘技术更是体现出了数据挖掘研究的发展趋势。
  数据表明,网络已经成为人们生活中不可或缺的组成部分,网站,尤其是电子商务网站每天都会生成庞大的日志文件和访问记录信息,如何对这些数据进行分析和挖掘可以帮助企业根据用户需求设计出更为人性化的交互界面,帮助企业增强市场竞争力。虽然基于网站的数据挖掘与传统的数据挖掘建模技术和算法使用差别不大,但是需要注意到,网站的数据库格式与传统的数据库还是存在一定差别,如何实现特定环境的数据挖掘优化是当前研究的一个方向。
  空间地理数据和视频流媒体数据也都建立在数据库的基础上。但是这类信息的数据挖掘还处于初步阶段,如何在海量数据中挖掘事先未知的和潜在有用的数据关系,帮助确定数据的内在联系和发展趋势还有待研究。但是可以确定的是,由于这类数据具有跨学科的综合性,故无法使用一般的方法进行数据挖掘,而应该建立多角度多学科交叉性的数据挖掘方式。
  未来基于数据库的数据挖掘肯定会朝着智能化、可视化、实时化、多维化、交互化方向发展,以适应更为复杂的和现实的数据环境。
  无论是在研究领域还是在商业应用中,基于数据库的数据挖掘都是一个热点话题,并且得到了越来越多的关注。随着数据挖掘技术的逐渐成熟,必须结合数据来源领域、数据应用领域、数据模型建立和算法理论基础等多方面因素进行数据的挖掘工作才能保证数据挖掘的有效性。
其他文献
政策民航总局:  民营资本将可参与小型机场的运营据从日前召开的全国民航机场工作会议上传出的消息,民航总局有意针对不同类型机场采取不同的管理模式。而民营资本将可因这
一、防潮解实验室吸水性较强的物质保存要尽量避免与空气接触,做到:(1)使用后立即盖严,如固体NaOH、Na<sub>2</sub>O<sub>2</sub>、P<sub>2</sub>O<sub>5</sub>、MgCl<sub>2</s
【摘要】 随着三网融合理念的不断推进,在很大的程度上促进了社会的发展。现目前,我国主要推进的网络技术包括:电信网、广播电视网、互联网这三网的技术融合。因此,本篇文章主要以三网融合进程中的相关问题进行一下简要的分析。  【关键词】 三网融合 电信网 广播电视网 互联网  在三网融合的进程中,三大网络的业务范围都差不多,都能将网络相互联通,趋近于资源共享的效果,也能为用户提供语音会话,接受广播电视以及
本文设计的M-BUS集中器实现了M-BUS电平与RS232、RS485电平的转换,PC机或其他设备,可以通过串口直接访问M-BUS终端。同时,实现了过载检测功能及中继功能。本文的设计已成功应用于M-BUS热表的抄表系统中,实用性、可靠性都相当不错。
罗斯青尼迪绿道以废弃城市基础设施改造过程中城市历时性保护与更新为启示,绿道规划理念为导向,成功的修复了因波士顿滨海公路改造而留下的城市疤痕,建立了一个集游憩、生态
考勤系统的设计开发从考勤终端以及服务器应用程序两个方面进行开发。考勤终端以STC90C58AD单片机为控制核心,利用DRFl605H无线收发模块以及MFRC522读卡模块,实现了考勤信息的
提出了基于正交调制技术的带抖动时钟信号产生算法,介绍了正交调制原理的实现框图,利用DDS技术产生两路正交基带信号,然后正交调制到中频信号上。该方法缓解了采样频率的压力,并
【摘要】 信息技术采用项目教学法,在项目教学法的实施过程中的某一个环节难免要利用任务驱动的形式组织教学。我在教学中让“任务驱动”真正起到了驱动教学的作用,培养了学生主动参与的意识,让学生在信息技术的学习中爱学、愿学、乐学。  【关键词】 教学改进 任务驱动 转变思路 自主学习  信息技术教学又进行了一次教学的改革,提出了项目教学法。在项目教学法的实施过程中的某一个环节中难免要利用任务驱动的形式组织