数据挖掘模型可视化研究及其应用实例

被引量 : 0次 | 上传用户:bmw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们现在已经生活在一个网络化的时代,通信、计算机和网络技术正改变着整个人类和社会。大量信息在给人们带来方便的同时也带来了一些问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?” 面对这一挑战,数据挖掘(Data Mining)和知识发现(Knowledge Discovery)技术应运而生。随着数据库技术的迅速发展以及数据库管理系统的广泛应用,积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系或规则,无法根据现有的数据预测未来的发展趋势。数据挖掘(Data Mining)是人们长期对数据库技术进行研究和开发的结果。数据挖掘技术是新兴的研究领域之一,它结合了数据库技术、人工智能(AI)和统计分析等多项技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。数据挖掘技术的运用能从大量的、不完全的、有噪声的、模糊的、随机的应用数据中提取出隐藏于数据背后的信息和知识。 决策支持系统(Decision Support System)是在管理信息系统的基础上发展起来的,目前开发的综合DSS是以数据仓库(DataWarehouse)技术为基础,以联机分析处理(OLAP)和数据挖掘(DataMining)工具为手段进行实施的一整套解决方案, 而数据挖掘是决策支持工具中的重要组成部分。数据仓库直接为联机分析处理和数据挖掘提供数据源。在数据仓库基础上挖掘的知识通常以图表、可视化、类自然语言等形式表示出来,但所挖掘的知识并不都是有意义的,必须进行评价、筛选和验证,把有意义的知识放到知识库中,随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型包括总结性知识、关联性知识、分类模型知识、聚类模型知识,这些知识通过相应挖掘算法得到。本论文是在长春康达智控公司软件研发部完成的。在公司期间参与了通化钢铁集团公司决策支持系统(TGDSS1.0)的研发工作。该软件系统分为联机分析处理(OLAP)和数据挖掘(DM)两个子系统,OLAP子系统的主要功能是通过IE(微软的INTERNET EXPLORE)或NETSCAPE等浏览器随时随地查阅商业数据,在线创建各类数据报表,及时发布和传递各种数据文件;DM子系统主要分析商业数据为高层决策提供及时而有价值的信息,其功能包括对底层商业数据预处理、挖掘模型建立、知识可视化呈现等。整个系统集成了数据挖掘(DM)、联机分析处理(OLAP)、可视化、WEB等技术。整个软件系统分四个层次体系,包括数据仓服务器层、数据挖掘服务器层、WEB服务器层和用户层等四个层次的体系结构。数据挖掘子系统主要基于微软的数据挖掘核心技术,以SQL Server Analysis Services为数据挖掘的服务平台,分别针对底层的关系型数据库和数据仓库中的多维数据立方体两种数据<WP=90>源建立可视化的挖掘模型,并将得到的挖掘模型以两种可视化形式展现给客户。本论文主要阐述与数据挖掘子系统相关的研究内容。针对通化钢铁集团公司决策支持系统(TGDSS1.0)中的数据挖掘子系统,主要做了以下方面的工作:首先阐述了数据挖掘的一些相关概念、模型结构、挖掘算法等内容,对数据挖掘的模型和算法等理论作了深入的研究,针对实际的业务需求将决策树算法应用到数据挖掘分类模型中;将可视化技术引入数据挖掘领域,从数据预处理、挖掘模型建立、模型验证与评估等整个数据挖掘流程中抽象出数据挖掘模型可视化的体系结构,并将其应用于数据挖掘子系统的研发过程中。其次根据数据挖掘模型可视化建立过程,针对关系型数据源开发客户端数据挖掘可视化分析工具---RDDMT(Relation Database Date Ming Tool)。在该挖掘工具的实现过程中,主要依托于Microsoft SQL Analysis Services 提供的数据挖掘服务,并集成多种可视化技术实现数据预处理、挖掘模型建立、模型展现等系统功能。最后基于多维数据立方体数据源开发了数据挖掘子系统---MDDMT(Muti-dimension Data cube Data Mining Tool)。该挖掘工具以Microsoft SQL Analysis Services 作为数据仓服务器,利用RDDMT预处理过的关系型数据建立多维数据立方体。第三方客户端数据挖掘分析工具DBMiner 2.0通过Analysis Services提供的联机数据分析服务接口(OLE DB FOR OLAP)与多维数据立方体数据源建立连接通道,对数仓库中的多维数据立方体建立可视化的挖掘模型。在系统的实现过程中,通过DBMiner可以方便地对多维数据立方体进行联机分析处理和挖掘模型的可视化创建过程。在本论文中,主要提出了数据挖掘模型可视化的体系结构等;并严格依据数据挖掘系统的开发规程,针对通用的业务模型,完成了基于关系型数据和?
其他文献
<正>1934年6月19日,对于美国总统富兰克林·德拉诺·罗斯福而言,是个特别繁忙的日子。这一天,他召开了第131届新闻发布会,接着召开了内阁会议,然后连夜赶到康涅狄格州纽黑文
中华人民共和国的国家与政府领导体制 ,经过 1 94 9— 1 95 4年的《共同纲领》时期 ,在1 95 4年宪法颁布后 ,发生了深刻的变化 :一、在全国人民代表大会基础上国家最高立法权
脑卒中是急性脑血管病的一大类型,可分为缺血性和出血性两大类。脑卒中患者的发病率、致残率和死亡率很高,近十多年来虽然在脑卒中的临床治疗方面有所突破,但疗效仍不理想。如何
如果说在现代文学史上,第一个具有现代主义成分的小说流派是前期创造社以郁达夫、郭沬若等为代表的自我派小说,那么真正在小说创作领域把现代主义方法向前推进并且构成了独立的
液动射流冲击器在钻进工程中具有广泛的应用前景,但是在将液动射流式冲击器应用于石油钻井或深井钻进时我们发现,冲击器的关键部位:射流元件的寿命由100个小时降低到10个小时甚
1972年,Fujishima和Honda发现在TiO2电极上可光催化分解水。这一事件标志着复相光催化中一个新领域的开始。从那以后,化学家和物理学家对探讨光催化反应的主要过程及增强TiO2的
临床研究:目的:研究脑康宁胶囊对帕金森病的临床疗效。方法:采用随机、单盲、对照试验研究。将符合纳入标准的研究对象按随机数字表1:1随机分入脑康宁组和对照组进行研究。符合病
日本国会于1999年12月1日通过了几部关于修改成年人监护制度的法律。本次不仅修改了民法典总则中的“禁治产、准禁治产制度”和家庭法编中的“后见制度”,还设立了“任意监护
阿魏酸钠(sodium ferulate,SF)是一类新的非肽类内皮素(ET)受体拮抗剂,是传统活血化淤中药当归、川穹等的主要有效成分阿魏酸的钠盐。SF可拮抗ET引起的血管收缩、增加一氧化