论文部分内容阅读
在实际工程问题中,存在大量的类别不均衡问题,如故障诊断、网络入侵检测等。且该类问题具有明显的时间特点,尤其是在大规模数据环境下,数据通常是按序到达,是一种典型的在线不均衡分类问题。极限学习机作为一种单隐层前馈神经网络,具有极端快速的特点,同时其泛化性能良好,可有效解决在线贯序数据的分类问题。然而,极限学习机通常是以提高样本整体的分类精度为目标,当类别严重不均衡时,极易导致分类面偏移,造成“虚假”的分类效果。因此,本文将根据数据特点和应用需求,在前端充分采集数据和处理数据的基础上,进行后端机器学习理论和算法的研究,提出一系列更适合在线不均衡分类问题的算法。主要工作和贡献如下:(1)为提高不均衡在线贯序数据中少类样本的分类精度,提出一种基于不均衡样本重构的加权在线极限学习机算法。该算法的关键是在提取数据分布特性的基础上,对不均衡样本重构。为此,引入主曲线的概念,并在此基础上改进SMOTE方法,从而提高少类样本的过采样质量,同时,为突出样本重要性,采用动态加权的思想,根据训练误差为在线样本赋以相应大小的权重。最终在不增加算法复杂度的前提下,对少类样本的预测精度更高,同时数值稳定性良好。(2)针对现有分类算法泛化性能较低的问题,提出一种基于留一交叉验证的在线极限学习机算法,既实现了对在线泛化误差的快速有效估计,又大大降低了时间复杂度。为解决在线样本的不均衡问题,根据留一误差进行欠采样,同时,为保证模型的简约性,采用增删机制动态更新网络权值,并从信息熵的角度给出在线欠采样过程中存在损失信息上界,进而从理论上证明了该算法的有效性。(3)为进一步提高不均衡在线数据中少类样本的识别率,同时尽可能减少多类样本的分类精度损失,提出一种基于混合采样策略的在线极限学习机算法。该算法在遵循样本分布特性的同时,根据样本重要度指标筛选最具价值的样本点,实现样本重构。同时为保证模型的泛化性能,根据在线留一误差进行动态模型调整,以确保最优网络结构,并通过理论分析和大量仿真实验证明该算法的合理性和有效性。本文研究不仅拓宽了极限学习机的理论与算法研究,也为在线不均衡分类问题提供了新的解决方案,同时本文所研究的理论和相应算法,均可直接应用于其他领域的信号处理,对于实际工程问题中的不均衡分类问题的解决,如网络入侵检测,疾病诊断等,也具有良好的借鉴意义。