面向在线不均衡数据分类的极限学习机算法研究

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:janbchang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际工程问题中,存在大量的类别不均衡问题,如故障诊断、网络入侵检测等。且该类问题具有明显的时间特点,尤其是在大规模数据环境下,数据通常是按序到达,是一种典型的在线不均衡分类问题。极限学习机作为一种单隐层前馈神经网络,具有极端快速的特点,同时其泛化性能良好,可有效解决在线贯序数据的分类问题。然而,极限学习机通常是以提高样本整体的分类精度为目标,当类别严重不均衡时,极易导致分类面偏移,造成“虚假”的分类效果。因此,本文将根据数据特点和应用需求,在前端充分采集数据和处理数据的基础上,进行后端机器学习理论和算法的研究,提出一系列更适合在线不均衡分类问题的算法。主要工作和贡献如下:(1)为提高不均衡在线贯序数据中少类样本的分类精度,提出一种基于不均衡样本重构的加权在线极限学习机算法。该算法的关键是在提取数据分布特性的基础上,对不均衡样本重构。为此,引入主曲线的概念,并在此基础上改进SMOTE方法,从而提高少类样本的过采样质量,同时,为突出样本重要性,采用动态加权的思想,根据训练误差为在线样本赋以相应大小的权重。最终在不增加算法复杂度的前提下,对少类样本的预测精度更高,同时数值稳定性良好。(2)针对现有分类算法泛化性能较低的问题,提出一种基于留一交叉验证的在线极限学习机算法,既实现了对在线泛化误差的快速有效估计,又大大降低了时间复杂度。为解决在线样本的不均衡问题,根据留一误差进行欠采样,同时,为保证模型的简约性,采用增删机制动态更新网络权值,并从信息熵的角度给出在线欠采样过程中存在损失信息上界,进而从理论上证明了该算法的有效性。(3)为进一步提高不均衡在线数据中少类样本的识别率,同时尽可能减少多类样本的分类精度损失,提出一种基于混合采样策略的在线极限学习机算法。该算法在遵循样本分布特性的同时,根据样本重要度指标筛选最具价值的样本点,实现样本重构。同时为保证模型的泛化性能,根据在线留一误差进行动态模型调整,以确保最优网络结构,并通过理论分析和大量仿真实验证明该算法的合理性和有效性。本文研究不仅拓宽了极限学习机的理论与算法研究,也为在线不均衡分类问题提供了新的解决方案,同时本文所研究的理论和相应算法,均可直接应用于其他领域的信号处理,对于实际工程问题中的不均衡分类问题的解决,如网络入侵检测,疾病诊断等,也具有良好的借鉴意义。
其他文献
目的:检测卵巢肿瘤组织和血清中Ras相关区域家族1A(Ras association domain family 1A,RASSF1A)基因的异常甲基化;探讨卵巢肿瘤组织和血清中RASSF1A基因的异常甲基化与卵巢癌的
研究背景 结直肠癌(colorectal caucer,CRC)是严重威胁人类健康的常见消化道恶性肿瘤。世界范围内,结直肠癌的发生率在所有癌症中排名第三,在癌死因顺位中位居第二。WHO评
本实验是研究野西瓜硒多糖对人肝癌HepG2细胞增殖的影响及凋亡作用,并探讨了其作用途径和作用机制。本文通过利用MTT法、倒置显微镜的方法考察了野西瓜硒多糖对人肝癌HepG2细
目前,对于终末期的心衰病人,在药物治疗不起作用的情况下可通过植入血泵的方式进行治疗。但是血泵在工作时易产生溶血、血栓等血液兼容性的问题,会导致心脏泵无法正常工作,严
<正>医疗事故鉴定已成为当今社会各界关注的热点,而法医病理鉴定介入医疗纠纷诉讼的作法至关重要。解决涉及死亡的医疗纠纷案件常需要医疗鉴定结果,在裁决前一般均需作尸体解
会议
我国西南岩溶地区的石漠化是喀斯特生态系统退化到极端的表现形式,已严重制约当地经济社会发展和生态文明建设。因此,评价和模拟未来区域石漠化发展趋势十分迫切。文山州为云
幼儿园教学的本质就是将幼儿作为教学中的主体,在教学的过程中充分尊重幼儿的主体地位。然而从目前幼儿园教学的现状来看,形势不容乐观,对此,幼儿教师必须依据教学的现状探讨
宇宙学扰动可以分成三大类,分别是标量扰动、矢量扰动和张量扰动。这些扰动会对我们宇宙中的引力波产生影响,研究这些扰动的物理性质可以在很大程度上帮助物理学家去认识引力
<正>盈利模式是商业时代关系到媒体生死存亡的重要因素,传播方式的差异应该是新媒体与传统媒体形成差异竞争的根本:既不再仅仅依靠于内容,而基于互动关系的盈利模式将有可能
2007年10月21日,美国加州发生森林大火,截至25日,10余起山火已导致12人丧生,60多人受伤,近百万人被疏散。火灾破坏面积百倍于广岛核爆,毁林1970平方公里,烧掉10个亿。