基于数据挖掘的分类和聚类算法研究及R语言实现

被引量 : 0次 | 上传用户:tpsundl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是个新兴的研究领域,涉及到统计学、数据库、机器学习等众多学科,正以其强大的功能和广泛的应用受到高度的关注。数据挖掘的方法众多,其中分类、聚类方法是数据挖掘应用最多的方法,而算法研究是数据挖掘研究领域的重中之重,算法的好坏直接影响到数据挖掘的效率,所以本文主要深入系统地研究分类、聚类算法。虽然目前研究分类、聚类算法的文章比较多,但大多数研究只停留在理论上的探讨,并没有相应的算法实现。本文着重于算法实现的研究,在国内首次利用R语言实现数据挖掘算法,因为R语言相对于其他一些软件有着免费、开放源代码、算法更新速度快等优点。论文第一章介绍数据挖掘的研究背景、目的和意义以及研究方法和框架。第二章主要介绍比较各分类算法及R语言实现,包括基于距离分类的KNN算法;基于决策树方法的C4.5算法、CART算法;基于神经网络的BP算法。第三章主要介绍比较各种聚类算法及R语言实现。具体介绍了划分方法的K-means、pam、clara算法;层次方法的AGNES、DIANA算法;基于密度聚类方法的DBSCAN算法;基于模型聚类方法的COBWEB算法;基于模糊聚类方法的FCM算法。第四章实证分析主要以台湾教授蔡欣玲就护理人员离职调查的数据为例,按数据挖掘的标准流程CRISP-DM进行分析,首先对数据作初步统计分析,掌握护理人员的初步情况,再接着利用聚类方法来分析医院护理人员的离职意愿,然后利用分类方法建立预测模型。第五章对本文的研究情况进行总结并展望。
其他文献
何子淮是国家级著名老中医,在中医妇科领域颇有建树。他总结出一套从肝论治妇科疾病的方法,即舒肝散郁、温肝暖宫、养血柔肝、清肝泻火、养阴清肝、疏肝健脾法。临床实践中运
<正>一、背景在高中物理《电场》一章中,尽管《电势差与电场强度的关系》一节的内容不多,但却有着较为特殊、较为重要的地位:教材在引入电场强度描述电场的力的特性以及引入
本文针对沿空留巷技术的应用特点展开分析,结合煤矿开采中沿空留巷技术的应用现状,包括支架设计相对单一、支护效果不太理想、开采技术效率低、支护方式不稳定等,通过研究优
随着计算机、网络、信息技术的发展和日益融合,Internet已进入我们社会生活的各个领域和各个环节,基于Internet的电子商务给传统的交易方式带来了一场革命,随着全球电子商务的快
土地资源在经济发展和社会建设过程中都是十分重要的资源,但是随着我国的快速发展,土地资源也变得越来越稀少,所以我们必须要采取适当的措施来保护土地资源,使其得到更合理的利用
本文是甘肃省科技攻关项目——《生物法处理苯胺废水的研究》中的后续研究部分。苯胺废水具有毒性大,色度大,不易生物降解等特点,如果不加处理排放到水体中,将对环境造成极大危害
语文教学一直以来在教学中占有重要的地位比例。语文是承载中国几千年来的文化载体,就语文自身的内涵来说就是一种艺术。作为母语的语文,在如今的高中教育中,更是一门基础中
研究了工程机械用17Cr Ni Mo6钢花键齿轮轴热处理后显微组织及花键精度等级不合格的原因,对热处理工艺进行了改进。实际生产应用效果表明,改进后的热处理工艺有效改善了花键
<正>数学新课程实施以来,广大数学教师对此倾注了极大的热情,人们确实感受到了数学课堂教学、数学教师教学行为、学生学习行为正在悄悄地发生着变化。但是,无庸讳言,新课程理