论文部分内容阅读
随着信息技术的发展,人们生产数据和采集数据的能力愈来愈高,但是,我们在数据分析和知识获取方面,能力还相对滞后。因此,从收集数据、创建数据库,管理数据,到数据分析,数据挖掘技术渐渐产生和发展。数据挖掘(Data Mining, DM)是一门跨学科的课题,涉及许多领域,包括统计学(Statistics)、数据库(Database)、机器学习(Machine Learning)和人工智能(Artificial Intelligence)等。数据挖掘,也被称为数据库中的知识发现,是从“海洋般”的大量数据中获取新颖的、有用的、有效的、可理解的模式的非平凡过程,也就是从大量数据里提取知识。分类(Classification)问题是数据挖掘技术中非常重要的研究课题,利用分类技术,可以从数据集中提取出描述数据类相同的模型或函数,并且能够顺利把数据集中每一个未知类别的数据划归到某个已知的类别中去。目前,常用的数据挖掘分类算法主要有:统计分类法、决策树、人工神经网络方法等。不同的算法会产生不同的分类器,而不同的分类器又会影响数据挖掘的准确率和数据挖掘的效率。因此,当面对数据量庞大的分类问题时,选择适当的分类算法是非常有必要的。人工神经网络(Artificial Neural Network, ANN)是数据挖掘常用的方法之一,该方法通过模拟人脑生物神经网络,将若干个具有处理功能的神经元(neurone)节点,按照一定的网络结构连接起来,使它能够处理不精确数据、模糊数据或者复杂的非线性映射问题。人工神经网络能够识别的模式是由网络的连接权值、拓扑结构及神经元阈值决定的。通过优化人工神经网络的拓扑结构及网络的权值、阈值,可以达到优化人工神经网络模型的目的。本文针对实际应用中的分类问题,详细介绍了三种人工神经网络算法的网络结构和算法描述,以及三种算法的优缺点,重点阐述了极限学习机的理论基础。将极限学习机算法应用于六个真实的数据集中,实现分类应用试验,并对实验结果与支持向量机和BP算法实验结果进行比较分析。通过实验结果发现,极限学习机在分类时间和准确率等反面,均具有明显的优势。