不平衡数据分类和极限学习机算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:benbenwenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,各个行业都产生了大量的数据,为了解决在海量数据中获取有用的信息的问题,数据挖掘技术应运而生。机器学习是当前人工智能领域的热点研究方向之一,它本身也是一门应用驱动的学科并推动着数据挖掘技术的发展。已有的研究成果表明,采用机器学习的方法来解决数据挖掘中的应用问题是一种行之有效的渠道或手段。  分类是机器学习和数据挖掘中的一项重要任务,在现实生活中也有着广泛的应用。例如,在医疗诊断、文本分类、诈骗检测、雷达图像监测、电子设备故障预测等领域中分类都具有极高的应用前景。目前,研究人员已经提出了许多不同的分类学习算法,如决策树、贝叶斯网络、人工神经网络、支持向量机等。  集成学习使用有限个学习器对同一个问题进行学习,通过集成方法将它们的预测结果进行合成。集成学习算法可以显著的提高学习系统的泛化能力,因此集成学习理论和算法的研究一直是机器学习领域的热点。  本文在深入探查数据分类的各种策略基础上,分别从以下几个方面展开了研究工作:  (1)对数据挖掘和机器学习中的分类问题进行了总结。对其中较为常用的分类方法如决策树分类法、KNN分类法、支持向量机、神经网络和贝叶斯分类法和极限学习机等进行了详细介绍。  (2)针对不平衡数据分类问题中存在的不足,本文提出了欠采样技术与修正核函数相结合的算法。通过实验证明,该方法能有效地提高不平衡数据分类的准确率。  (3)提出了一种改进的极限学习机集成学习算法。该改进的集成极限学习机算法不仅考虑了分类器的结构差异,还考虑了数据集的差异,因此改进的集成极限学习机不仅能产生稳定性更强和泛化能力更强的分类器,而且还可以充分利用ELM的快速性。  (4)实现了基于改进的极限学习机的文本分类系统的设计。系统可以进行中文文本多分类,包括中文广告分类和文本分类等。可以自行下载语料库进行训练。由于利用基于改进的极限学习机的集成算法,本系统的优势是一旦训练出模型以后,分类的速度是非常快的。  
其他文献
植物器官的颜色表达是植物内部生理机制与外界环境因素相互作用的结果,因此对植物叶色变化过程进行真实模拟是一个具有挑战性的课题,同时也是数字植物的重要研究内容。本文以黄
计算机技术发展至今,互联网的普及率也越来越高,已经成为人们生活中必不可少的工具,特别是随着近年来移动互联网的发展,数据需求呈现分布式、终端化、规模化,面对海量数据请求服务
铁路客运是我国最主要交通方式之一,它与人们的日常生活息息相关。由于铁路客运具有旅客数量多、流动性大、人员情况复杂等特点导致铁路客运中存在各种安全隐患,建立铁路客车
近年来,随着各种类别资产的日益增多,各企业逐渐将软硬件资产的生命周期的管理纳入到企业经济效益及长远的规划和发展中来。越来越多的企业意识到随着信息化建设脚步的加快,建立
随着信息技术的快速发展,电子文档成为人们获取和保存信息的核心途径。在诸多格式的电子文档中,PDF格式文档凭借其自身优点得到最为广泛的应用。而如何快速从海量PDF文档中检测
车辆在线监管是指通过视频识别摄像头、GPS车辆定位装置、RFID车牌[5]等先进的前端车辆动态信息感知技术,集中汇集整个城市范围的车辆实时监测数据。城市级别的道路车辆与停车
随着Internet和网络信息技术的迅猛发展,网络资源呈指数急剧增长,传统的通用搜索引擎的查询结果只依赖于查询关键词,而实际上,即便相同的查询词,不同的用户查询目的可能不同,
数据服务平台将分布在互联网上多源异构数据,通过数据服务建模封装成原子数据服务,多个原子数据服务组合形成复合数据服务。同时,复合数据服务具有层次结构,屏蔽了底层多源异构数
随着信息技术的高速发展,人类社会在过去几十年已经积累了大量的电子数据,当下电子商务、社交网络、科学研究等领域产生的数据呈爆炸式增长,未来的无线传感信息也将成为一个巨大
从20世纪90年代开始,伴随着电子通信、半导体技术、计算机网络等技术的发展,由具备感知和数据处理的传感器节点组成的无线传感器网络(Wireless Sensor Network,WSN)的技术及