论文部分内容阅读
随着科技的发展,各个行业都产生了大量的数据,为了解决在海量数据中获取有用的信息的问题,数据挖掘技术应运而生。机器学习是当前人工智能领域的热点研究方向之一,它本身也是一门应用驱动的学科并推动着数据挖掘技术的发展。已有的研究成果表明,采用机器学习的方法来解决数据挖掘中的应用问题是一种行之有效的渠道或手段。 分类是机器学习和数据挖掘中的一项重要任务,在现实生活中也有着广泛的应用。例如,在医疗诊断、文本分类、诈骗检测、雷达图像监测、电子设备故障预测等领域中分类都具有极高的应用前景。目前,研究人员已经提出了许多不同的分类学习算法,如决策树、贝叶斯网络、人工神经网络、支持向量机等。 集成学习使用有限个学习器对同一个问题进行学习,通过集成方法将它们的预测结果进行合成。集成学习算法可以显著的提高学习系统的泛化能力,因此集成学习理论和算法的研究一直是机器学习领域的热点。 本文在深入探查数据分类的各种策略基础上,分别从以下几个方面展开了研究工作: (1)对数据挖掘和机器学习中的分类问题进行了总结。对其中较为常用的分类方法如决策树分类法、KNN分类法、支持向量机、神经网络和贝叶斯分类法和极限学习机等进行了详细介绍。 (2)针对不平衡数据分类问题中存在的不足,本文提出了欠采样技术与修正核函数相结合的算法。通过实验证明,该方法能有效地提高不平衡数据分类的准确率。 (3)提出了一种改进的极限学习机集成学习算法。该改进的集成极限学习机算法不仅考虑了分类器的结构差异,还考虑了数据集的差异,因此改进的集成极限学习机不仅能产生稳定性更强和泛化能力更强的分类器,而且还可以充分利用ELM的快速性。 (4)实现了基于改进的极限学习机的文本分类系统的设计。系统可以进行中文文本多分类,包括中文广告分类和文本分类等。可以自行下载语料库进行训练。由于利用基于改进的极限学习机的集成算法,本系统的优势是一旦训练出模型以后,分类的速度是非常快的。