大数据专业《数据清洗技术》课程教学初探

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:zhuzubiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:随着大数据和云计算等新兴技术的发展,数据科学与大数据专业应运而生。本文根据应用型本科人才培养的特点和要求,结合笔者开设的数据清洗技术课程的经验,初步探讨了该课程的教学目的、教学内容和考核方法等课程教学设计问题。现阶段开设的数据清洗技术课程重点培养学生掌握专业基础理论知识和提高工程实践能力,凸显其专业核心类课程的地位,注重与大数据人才需求的接轨。
  关键词:数据科学  大数据技术  数据清洗技术  教学初探
  中图分类号:TP311.13-4;G642 文献标识码:A 文章编号:1674-098X(2021)07(a)-129-03
  On the Teaching of Data Cleaning Technology for Big Data Specialty
  JIA Lixiu*  LIN Zhong  HAN Lei
  (School of Computer Engineering, Nanjing Institute of Technology, Nanjing, Jiangsu Province, 211167 China)
  Abstract: With the development of emerging technologies such as big data and cloud computing, majors in data science and big data emerged. According to the characteristics and requirements of application-oriented undergraduate talent training, the author combines her own experience in Data Cleaning Technology course to preliminarily discuss the course teaching design issues such as the course's teaching purpose, teaching content and assessment methods. Data Cleaning Technology course offered at this stage focuses on cultivating students to master basic professional theoretical knowledge and improve engineering practice capabilities, highlighting its status as core professional courses, and focusing on the integration of big data talent needs.
  Key Words: Data science; Big data technology; Data cleaning technique; Teaching exploration
  随着大数据时代的到来,数据即是最宝贵的“石油资源”,具有国家战略意义[1],数据质量的重要性日益显著。大数据具有规模性、高速性、多样性和价值稀疏性等时代特征,其数据质量问题尤为突出。数据清洗是提高数据质量的重要技术,保障大数据的可用性。在很多大数据项目中,数据清洗工作在开发时间和预算方面占30%~80%[2,3]。现实世界中“脏”数据无处不在,数据不完整、不一致或不正确会严重影响数据分析和挖掘的结果,从而产生消极的作用[4]。数据清洗技术是一门活跃的学科,在数据管理和数据分析的历史上发挥了重要作用,并且仍在快速发展。此外,数据清洗被认为是大数据时代的主要挑战,因为在许多应用中,数据的体积、速度和多样性不断增加[5]。
  数据清洗方面的研究最早出现在美国[6],“脏”数据每年导致大约14%的美国医疗支出被浪费,每年让美国经济损失3万亿美元以上。2012年,英国一次性投入1.8亿英镑用于大数据领域的科研与创新,并将大数据作为八大前瞻性技术领域之首。2015—2016年QS世界排名前50的大学中有17所大学开设数据科学相关硕士培养计划,其中10所在美国,6所在英国,1所在新加坡[7]。2013年,韩国多部门联合发布“大数据产业发展战略”,于2015年初,给出全球进入大数据2.0时代的重大判断。2013年6月,日本公布了新IT战略——《创新最尖端IT国家宣言》,全面阐述了2013—2020年以发展开放公共数据和大数据为核心的日本新IT国家战略。2017年,我国工业和信息化部印发了《大数据产业发展规划》,全面部署“十三五”时期大数据产业发展工作。2016年,教育部批准北京大学、中南大学及对外经贸大学开设数据科学与大数据技术专业,2018年增至283所[8]。数据科学与大数据技术是一门新兴学科专业,其课程体系相关建设尚在发展与完善中,具有独立性、交叉性、实践性和系统性等特点[9]。
  本文以南京工程学院2018级数据科学与大数据专业为例,从教学目的、教学内容和考核方法等方面初探应用型本科课程《数据清洗技术》教学,以学生为主体,不断激发学生的学习热情和学习主动性。
  1  教學目的
  从数据科学与大数据专业人才培养方案可以看出,数据清洗技术课程的教学重点应放在让学生掌握如何使用数据清洗技术解决特定业务领域的问题,在完成本课程学习后能够熟练地应用数据清洗技术解决企业中的实际工程问题。作为大数据专业的专业核心类课程,需要讲解数据清洗的理论、方法、流程、工具及技术等内容,为学生进一步学习数据分析、数据挖掘和数据可视化等课程奠定基础。具体而言,本课程的教学目的主要包括以下几点   (1)理解数据清洗的理论、方法、流程、工具及技术。
  (2)掌握数据质量的评价指标和问题分类。
  (3)掌握ETL的关键技术和常见工具的基本功能。
  (4)掌握数据去重、缺失值处理以及异常值处理的方法。
  (5)熟悉多数据源的合并,掌握不一致和数据粒度的转换及数据的合计处理。
  (6)提高使用数据清洗技术解决实际问题的能力和动手实践能力以及学习数据科学相关知识的兴趣。
  众所周知,兴趣是最好的老师,培养学生的学习兴趣和学习信心是本课程教学的最基本的目的。此外,学生对先修基础课程,如概率论与数理统计、机器学习、Python、R语言、MySQL、数据采集技术及数据存储技术等学习积累直接影响该课程的教学效果,该课程教学中尽量保持数据科学基础知识在广度上和数据清洗技术在深度上的平衡。
  2  教学内容
  该课程采用理论与实践相结合的教学方式,理论知识和实际工程问题相互渗透融合。教学内容主要包括理论教学和实践教学两部分,选取的教学内容主要来自《数据清洗》(李法平主编)、《数据清洗》(黑马程序员编著)、《大数据分析:Python爬虫、数据清洗和数据可视化》(黄源、蒋文豪、徐受蓉主编)、《数据清洗》(黄源、涂旭东、罗少甫编著)和《大数据清洗技术》(王宏志著)等,符合应用型本科数据科学与大数据专业人才培养方案的培养目标,主要体现在学习难度适中和课程学时合理。下文将从理论教学和实践教学两部分讨论教学内容的编排,其中理论教学占32学时,实践教学占16学时,总共48学时。
  2.1 理论教学内容设计
  考虑到数据清洗理论正在快速发展,理论教学内容在参考相关书籍的同时,要实时更新解读国内外最新的经典图书及重要的学术论文,开阔学术的视野,提高学生学习的兴趣和主动性。理论教学内容主要包括以下几个方面。
  (1)数据清洗的基本概念和原理,常见数据清洗的策略、方法与基本流程,以及数据质量的评价指标和问题分类。
  (2)Microsoft Excel数据清洗基本操作,ETL的概念、体系结构和关键技术,ETL的常见工具Kettle、OpenRefine、DataWrangler和Hawk下载安装、基本概念及基本功能。
  (3)使用至少一种软件工具,如Kettle、Open Refine、Python和R语言等进行数据去重、缺失值处理和异常值处理。
  (4)使用至少一种软件工具,如Kettle、Open Refine、Python和R语言等进行多数据源的合并、不一致数据转换、数据粒度的转换及数据的商务规则计算。
  (5)数据的增量加载、全量加载以及MySQL和Oracle的批量加载,数据加载异常的处理。
  2.2 实践教学内容设计
  实践教学主要通过机房上机实验完成,结合实际工程项目问题,精心挑选难度适中的上机实验题,由浅入深,环环相扣,步步推进,进一步加深对理论知识的理解,充分调动学生的学习主动性,并培养学生学习的兴趣。实践教学内容主要包括以下几个方面。
  (1)Microsoft Excel数据清洗基本操作。该实验项目通过企业招聘职位信息的数据集练习使用Microsoft Excel进行数据清洗的基本步骤、方法及常见的数据清洗函数。
  (2)Kettle软件数据清洗基本概念和基本功能。该实验项目通过网络爬虫获得的某基金网站的基金名称和基金代码信息数据集练习使用Kettle软件进行数据重复和错误等问题的处理。
  (3)OpenRefine、DataWrangler、Hawk软件数据清洗的基本概念和基本功能。该实验项目通过企业招聘职位信息的数据集练习使用OpenRefine、DataWrangler和Hawk软件中至少一种进行数据重复、缺失、数据粒度过大等问题的处理。
  (4)使用Kettle、Python、R语言进行数据去重、缺失值和异常值处理。该实验项目通过用户访问某网站的数据集和某公司就业人员收入数据集等练习使用Kettle、Python与R语言进行数据完全去重,不完全去重,删除缺失值,填充缺失值以及异常值检测、删除异常值、修补异常值处理。
  (5)使用Kettle、Python、R语言进行数据转换。该实验项目通过某公司的2个分公司不同城市的销售数据集练习使用Kettle、Python、R语言进行不一致的数据转换、数据粒度的转换及一些商务规则的计算。
  上述实验内容设计秉承难度适中、切合实际工程问题的原则,不仅使学生深入理解专业理论知识,还培养了学生利用数据清洗技术解决企业中的实际工程问题的能力。
  3  考核方法
  本课程采用传统的闭卷笔试的考核方式,题型有单项选择题、填空题、判断题、简答题和综合题等五大类,题型丰富,重点考查了学生对于本课程基本理论知识的掌握程度。平时成绩占总成绩30%,其中考勤、课堂表现和作业部分各占5%,上机实验部分占15%,期末考试成绩占总成绩的70%。设计合理的考核方案,让学生重视理论知识和上机实验操作,其中上机实验一方面可以通过实验报告考查学生对理论知识的掌握,实验报告内容主要包括题目、设计方案、源程序清单、程序运行结果和实验总结与思考;另一方面可以通过实验结果考查学生解决实际工程问题的能力,学生根据具体的实验要求编写代码实现相应的功能,教师对学生编写的代码进行提问,要求学生能讲解算法设计流程和每句代码的含义。这樣的考核方法使得学生不仅注重理论知识的学习,更激励学生认真准备上机实验,以提高学生解决实际工程问题的能力。
  4  结语
  本文探讨了应用型本科数据科学与大数据技术专业《数据清洗技术》教学的相关问题。从教学目的、教学内容和考核方法等方面做了一定探索,正确认识数据清洗技术在大数据专业人才培养方案中的地位,对应用型本科数据科学与大数据技术专业的相关教育工作者或有一定的参考价值。坚持以学生为主体的教学,因材施教,培养学生学习的兴趣和信心,以培养高质量的大数据人才为目标,是课程今后努力的方向。
  参考文献
  [1] 钟泽灵.大数据背景下的政务信息化治理探讨[J].中国信息化,2021(3):106-107.
  [2] 谢智颖,何原荣,李清泉.基于时空相关性的公交大数据清洗[J].计算机工程与应用,2021(4):1-11.
  [3] 叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129.
  [4] 郝爽,李国良,冯建华,等.结构化数据清洗技术综述[J].清华大学学报:自然科学版,2018,58(12):1037-1050.
  [5] Tang N. Big Data Cleaning[C]//Asia-Pacific Web Conference. Springer,Cham,2014:13-24.
  [6] Badia A. Data Cleaning and Pre-processing[M]//SQL for Data Science.Springer,Cham,2020:77-169.
  [7] 陈振冲,贺田田.数据科学人才的需求与培养[J].大数据,2016(5):95-106.
  [8] 张永亮,刘子昂.大数据专业国内外建设现状与发展特征分析[J].科技风,2021(3):125-126.
  [9] 贺文武,刘国买.数据科学与大数据技术专业核心课程建设的探索与研究[J].教育评论,2017(11):31-35.
其他文献
摘 要:随着我国社会的发展,各个领域的管理都不断加强,档案管理的作用不断提高,体现在社会发展的各个领域。为了更好地进行档案管理工作,满足保密工作原则,需要制定科学的保密和管理制度,严格按照相关的要求进行规范操作,突出档案内容的完整性,避免档案信息出现流失和信息泄露的问题,促进我国社会进行稳步的发展。本文首先介绍了档案管理保密工作的重要性,然后阐述了档案管理保密工作的内容,分析档案管理保密工作存在的
期刊
摘 要:煤炭科技期刊英文摘要作为科技论文的重要组成部分在国内外信息传播、学术交流的过程中起着重要的作用。本文以《露天采矿技术》为例,介绍了英文摘要写作的基本要领,并详细论述了英文摘要的编校要求和主体部分,分析了科技期刊英文摘要编校的提升策略,以期提高煤炭科技期刊在国际上的影响力。  关键词:英文摘要 科技期刊 编校 质量提高 规范  中图分类号:G232 文献标识码:A 文章编号:1674-098
期刊
摘 要:以患者服务为中心,优化患者住院就医体验,提升医护人员服务效率,将优质医疗落实到位,颠覆传统病房模式,打造高质量的住院服务体系。通过物联网技术在医疗行业场景化的应用,结合床旁交互、智能呼叫、移动护理、移动查房等智能终端设备与医院信息系统及大数据平台的联动,实现数据系统与管理的深度融合。智慧病区物联网系统在医院的构建及实际应用取得了良好的效果,实现患者满意度提升、医护服务效率提升、医疗质量安全
期刊
摘 要:目前,国内高校逐渐认识到学科交叉对学校原创性科研成果的产出、创新性人才的培养具有重要的推动作用,国内高校依托自身多学科的优势,结合国际科研前沿和国家战略需求自主设置交叉学科以及交叉科研机构支持交叉学科研究。高校需针对以学院、学科为传统运行模式的机制体制的弊端,在机构运行模式、考核评价机制、资源分配、成果认定等方面进行改革创新,营造良好的学科交叉研究氛围,促进创新型人才的培养。  關键词:高
期刊
摘 要:会计管理在医院的经济管理中具有非常重要的作用和意义,有利于提升医院的整体经营管理水平。在现阶段部分医院的经济管理模式中,由于对会计管理工作的认识不到位,导致会计管理工作难以在医院得到有效展开,出现一定的客观问题,影响医院的业务水平和经营发展。因此,作为医院经济管理中的基础职能,相关人员要充分发挥出会计管理的优势,加强对现代化背景下医院发展的重点管理,积极提升医院的整体经营水平。  关键词:
期刊
摘 要:为促进科技成果转化为现实生产力,国家出台了一系列优惠政策。但在我国现阶段,科技成果转化与技术市场发展仍存在体制机制不畅、资金投入不足、技术经纪人才匮乏、产学研结合不够紧密、企业承接科技成果相关转化能力方面尚有不足等问题。本文据此提出了加强管理服务体系建设、建立多元化投融资渠道、培养技术经纪专业人才、大力发展技术转移服务机构和推进产学研深度合作等对策建议。  关键词:科技成果转化 技术市场
期刊
摘 要:借助信息化教学的手段是职业教育现代化的一种发展趋势。互联网+教育”背景下,结合突如其来的新冠肺炎疫情,各高校纷纷尝试开展线上教学。如何给学生营造居家学习氛围、提高线上教学效率,是所有教育工作者面临的新问题和新挑战。针对“药物化学”这一学科知识的特殊性,利用微助教與腾讯会议两个平台有机结合,对“药物化学”课程开展了线上教学模式的探索与实践。通过“学生自学+线上直播与测试+腾讯会议答疑”教学方
期刊
摘 要:通过远程网络直播的教学方式在骨外科临床见习教学中的创新教学方法,观察直播课程的骨外科临床见习教学方法对学生批判性思维能力的提高情况。以“钉钉”智能移动办公平台为载体,选取齐齐哈尔医学院2017级临床医学专业本科见习学生,共计100人为研究对象,按照见习大纲的要求进行对学生进行分组见习,所有学生均由同一老师讲授和指导。网络直播骨外科临床见习教学内容的学生的开课前和课程后学生的评判性思维能力进
期刊
摘 要:为了响应全国高等学校本科教育工作会议上给出的工作指示,顺应河南大学“一流学科”建设的任务。本文结合实际对当前的数字电子技术课程做了科学的分析与梳理,剖析了当前数字电子技术课程存在的问题,进而提出相应的课程改革方案与具体实施计划,为河南大学控制人才的培养提供合理化建议,更好地服务于河南省的基础研究和人才培养事业。  关键词:河南大学 数字电子技术 科学教学 教学改革  中图分类号:G64 文
期刊
摘 要:为了更好地提高各个阶段学生对阵列信号处理课程的理解能力,夯实相关专业理论基础,本文结合实际教学数据,从理论上分析梳理了阵列信号处理课程的教学近况及存在问题,进而提出相应的解决策略。从而激发学生学习的积极性,培养学生的创新意识与批判思维,为提升学生自身的综合素质提供合理化建议,更好地服务于高校信息学科的人才培养。  关键词:课程改革 阵列信号处理 创新研修课 人才培养  中图分类号:G64
期刊