SQL Server数据挖掘技术应用研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:coldbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:使用SQL Server进行数据挖掘时,透彻理解相关技术及产品的使用特点、工作机制对提升挖掘效果具有重要意义。遵循CRISP-DM标准数据挖掘流程,以UCI数据集Adult分类任务为案例,研究了在MicrosoftBI技术框架下实现SQL Serv-er数据挖掘的基本过程、方法和特点,探索了重要图表工具的工作机制。实验表明SQLServer数据挖掘技术易于使用、性能良好,并能和SSIS等很好地协同工作。
  关键词:数据挖掘;挖掘模型;决策树;提升图;分类矩阵;混淆矩阵;SQLServer;CRISP-DM
  中图分类号:TP311.13 文献标识码:A
  文章编号:1009-3044(2019)32-0027-03
  1概述
  SQL Server数据挖掘因具易于使用且效果良好等特点而受到欢迎,但易于使用的背后隐藏着复杂的内部机制,要获得最佳挖掘效果,需要对相关技术和产品的使用特点、工作机制等有较为透彻的理解,但目前这方面的研究较为缺乏。本文通过实例研究在Microsoft BI技术框架下实现SQL Server数据挖掘的基本过程、方法和特点,研究数据为UCI机器学习数据库中的Aduh数据集,研究内容贯穿整个CRISP-DM标准定义的数据挖掘项目生命周期(业务理解、数据理解、数据准备、建模、评估、部署),重点探索数据准备、建模、评估阶段的内容及重要图表工具的工作机制,最后对SQL Server数据挖掘的易用性、挖掘性能、与SSIS技术的配合等方面进行评价。
  2业务理解、数据理解
  本文数据挖掘任务是根据人口普查数据预测一个人的年收入是否超过5万美元。所选数据为UCI机器学习数据库中的Adult数据集,该数据集从美国1994年人口普查数据库中抽取而来,共48842条记录,已经划分为训练数据和测试数据,分别存储于平面文件adult.data(32561条)、adult.test(16281条)
  该数据集属于分类数据集,可预测列为incomef年收入是否超過5万美元),可用作输入列的属性共有14个:age(年龄)、workclass(T作类别)、fnlwgt(序号)、education(受教育程度)、edu-cation_num(受教育时间)、marital_status(婚姻状况)、occupation(职业)、relationship(家庭关系)、race(种族)、sex!(性别)、capital_gain(资本收益)、capital_loss(资本损失)、hours_per_week(每周工作小时数)、naive_country(原籍)。
  本文预测结果可用于很多场合,如:为政府研究居民收入状况并完善税收、社会保障以及各种民生制度提供一定的参考,针对高收入人群定制高端商业活动等。
  3数据准备
  首先将数据导入SQL Server数据库,然后进行数据预处理。
  1)建立SQL Server数据库
  建立SQL Server数据库,在库中建立保存训练数据和测试数据的表Adult及Adult_test,表结构和数据源结构一一对应,另外增加IDENTITY自增型字段id用作表的主键。因为每个人的id不能重复,因此两张表id字段的标识种子需要根据数据量设置足够大的间隔。
  2)数据导入及预处理
  使用SSDT(SQL Server Data Toolsl建立Integration Services项目,该项目包含二个SSIS包,分别用于训练数据和测试数据的导人及预处理,流程见图1。
  (1)将数据导人SQL Server数据库。名为“数据导人”的控制流节点是一个数据流任务。首先使用“平面文件流”控件连接要导入的平面文件adult.data(adult.test),然后通过“数据转换”控件将其中的文本列转换为Unicode字符串,最后使用“OLE DB目标”控件将数据导入表Adult(Adult_test)。
  (2)数据预处理。通过对数据的浏览及探索,了解数据的分布及质量情况,然后针对发现的问题对数据进行清洗、转换、规格化等处理。
  ①删除字符串前后空格。用于删除income字段数据的前导空格。
  ②处理缺失项。缺失值已用“?”代替,直接删除有缺失值的记录。
  ③处理不一致.1生数据。Adult_test表中income字段值是“
其他文献
基子移动技术的地理信息系线,改变了传统GS的工作模式,该文对江门市移动地理信息系线开发进行了详细的系统需求分积、系统总体设计、系统详细设计,采用ESRI公司推出的ArcGIs Kunti移动开发包,基于A0 S API fH Android的移动GBs开发技术,实现了在线切片服务和要素服务下载、本地要素服务编辑和上传,地图放大缩小全图操作,GFS定位,图层控制,地图标绘,附近查询、数据查询。
摘要:随着我国科学技术水平的不断提升,电子信息化、现代化技术研究的不断深入,国家对于计算机及其网络得要求也越来越高。在人们不断进行上网活动,不断获取网络信息并进行信息浏览和发送的过程中,其产生的计算机信息量令国家进入了大数据时代。在大数据时代背景下,计算机如何进行更好的系统研究、如何进行更新换代、如何处理相关的信息数据成为科研工作者共同研究的问题。对此,本文基于大数据时代的相关背景及特点,对于计算
摘要:针对目前红学研究主题繁多且学术成果数量庞大,对核心作者及其文献筛选工作困难的问题,该文提出了一种基于综合指数和可视化分析的红学热门主题及核心作者研究方法,筛选出九大热门主题,并从多方面分析了评估红学核心作者的因素,从多个角度分析了红学研究文献的特性,研究其特征和主旨。该文采用Python语言进行了详细的实验,分析了红学核心作者与其作品的联系,挖掘出作品研究价值高且适用性广的核心作者。实验结果
摘要:高校学生资助工作是脱贫攻坚工程的重要内容,以资助促进学生发展,切断贫困代际传递,才是学生资助工作的本意所在。在大数据时代背景下,利用数据挖掘技术实现高校精准资助路径,打造资源共享、精准认定的资助新模式,建立实时动态监管体系,完善管理思路,对提高高校精准资助水平具有重要意义。本文通过分析高校学生资助工作的现状,构建高校精准资助实施路径模型,对高校学生进行信息数据采集、集成、变换、挖掘、模式评估
摘要:该文简要介绍了金墙病毒隔离墙的系统模式、原理、特点及在电视制作网络中的实际应用。  关键词:电视制作网;隔离墙;使用方法;网络安全  中图分类号:TP393 文献标识码:A  文章编号:1009-3044(2019)32-0043-02  如今数字化、网络化技术的飞速发展,国内各家电视台都投人大量资金建设电视节目制作网络和电视节目播控网络,最大限度地实现资源共享,提高节目制作和播出效率。然而
摘要:社会网络影响力最大化是社会网络分析领域的一个重要研究问题,该问题旨在寻找出社会网络中具有最大影响力的节点集合。从社会网络影响力最大化问题产生背景出发,介绍影响力最大化问题的求解过程与求解过程中用到的基础模型,归纳总结了现有的几种主要传播模型、影响力最大化算法及研究现状。最后,讨论了该研究存在的问题和对未来的展望。  关键词:社会网络;传播模型;影响力最大化算法  中图分类号:TP393 文献
伴随着国家信息化进程的不断加快,信息技术对我国人民日常生活的影响也越来越大。大学作为国家培养人才的重要地点,自然也要跟紧信息化的步伐。如今,越来越多的高校加入了校园一卡通的行列,校园一卡通已经成了我国大部分高校学生日常生活中不可缺少的一部分。伴随着校园一卡通在高校的不断普及,其可能存在的安全性问题也越来越受关注。本文将从校园一卡通的所要实现的目标及其整体结构总结和讨论校园一卡通的好处及其可能存在的
摘要:高校智慧校园是在数字信息化校园基础上,所建构的智能化网络服务评价架构,其主要用到大数据、云计算及物联网技术。当前大数据及云计算技术,在智慧校园体系建设中的应用,通常会利用Hadoop分布式平台、HDFS文件系统、Ma-pReduce虚拟计算等大数据技术,以及云计算平台及其服务器,来完成高校信息管理系统的部署与建设,并实现对数据资源的挖掘、整合处理与存储,以满足不同学校成员的教学、科研、管理决
摘要:当前,在线测评系统得到广泛应用,选题策略成为发挥系统效能的关键,传统的选题策略存在检验精度不够、试题曝光不均衡,题库安全性差等不足,论文提出一种新的自适应选题策略,先对题库进行基于难度的分区,区内再按区分度二次分层,建立相应选择量模型,通过反馈机制,选出信息量最大的试题。实验表明新策略在保证检测效能的前提下有效地降低了试卷重复率,保证了题库的安全性。  关键词:自适应策略;信息量;随机抽样法
摘要:随着信息技术的发展,高校教学的信息化水平也逐渐提升,这不仅丰富了课堂教学量,同时也改变了传统的教学模式,推动了高校教学的发展。当前,部分高校的教学信息化水平还比较低,难以满足教学的实际需求,因此应加快网络辅助教学平台建设,为教学提供强力的支撑,推动教学水平的提升。  关键词:网络辅助教学平台;建设;实践  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2019)32