论文部分内容阅读
该文主要由以下四个部分组成:第一章,数据挖掘简介.从数据挖掘的概念、功能、目的、主要方法以及数据挖掘步骤,发现统计学与数据挖掘有着密切的关系:统计学和数据挖掘有着共同的目标即发现数据中的结构,但数据挖掘并不是统计学的分支,因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科.数据挖掘的出现为统计学提供了一个崭新的应用领域,虽然统计学不可能给出数据挖掘所有问题的答案,但它可以为数据挖掘提供非常有参考价值的框架,能够极大地丰富数据挖掘的方法.第二章,数据预处理及数据库的压缩.数据的清理有三种方法:空缺值的填充、异常点分析以及不一致数据的处理.数据库的压缩方法有很多,在介绍了主成份分析、信息增益分析技术和属性相关分析等进行维归约之后,引入了粗糙集理论.粗糙集理论既可以用于压缩数据库,又可以对属性的重要性程度进行测量及排序.第三章,数据挖掘的常用技术.数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种,描述型数据挖掘包括数据总结、聚类及关联分析等.预测型数据挖掘包括分类、回归及时间序列分析等.这里主要介绍了常用的技术:决策树和决策规则、关联规则和聚类分析.第四章,数据挖掘技术的应用.该文的应用案例有两个,数据挖掘在移动通信中的应用以及对一份调查问卷的分析.针对移动通信客户众多,信息量大的特点,需要对手机用户消费水平的数据库进行压缩,对压缩后的新数据库可以运用决策树进行分类和关联规则以期找出几项费用与缴费总额之间的联系.而在"大学生素质培养的调查问卷"案例中,首先将24个影响一个人成长和发展的因素运用聚类分析进行了分类,然后运用以秩效应为标准进行属性项的排序的方法,对24个影响因素的重要性程度进行排序.最后对论文进行了总结,同时提出了未来在数据库的建立、数据的收集处理及预测等需要继续研究的几个问题.