不均衡数据下基于SVM的分类算法研究与应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:lyt7913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机算法是以统计学习理论为基础的一种机器学习方法,它以其扎实的理论基础以及完整的理论推导,成为处理小样本学习、非线性、局部极小值等问题的有效工具。支持向量机与神经网络相比,具有收敛速度快、稳定性强和泛化能力强等优点,因此在故障检测领域中具有广泛的应用。在现实应用中由于故障数据不容易获得,所以检测数据往往是不均衡的。但是利用传统的支持向量机算法处理不均衡故障检测数据问题,分类器的分类效果很不理想,因此很多学者对支持向量机算法进行了改进。目前在数据层面对支持向量机算法的改进主要集中在少数类样本的过采样,但多数类样本中存在的噪声和冗余能对分类器产生不良的影响。鉴于此,本文提出将一种新型的逐级优化递减(ODR)欠采样算法,并且与边界人工少数类过采样算法(BSMOTE)结合实现训练样本数据集的均衡。该方法首先利用ODR对多数类样本进行欠采样,去除多数类样本中存在的大量重叠的冗余信息和噪声样本,使得在减少数据的同时保留更多的有用信息;而对少数类样本的过采样是对分类边界附近的少数类样本进行的,能更加有利于后续的SVM算法的分类。本课题首先利用UCI数据库中5组不同比例的不均衡数据集对本文提出的基于逐级优化递减算法(ODR)和BSMOTE算法相结合的SVM算法(ODR-BSMOTE-SVM)的分类性能进行测试,并与现有的基于少数类样本过采样的改进SVM算法进行对比测试。最后利用ODR-BSMOTE-SVM算法对滚动轴承故障检测数据集中进行检测性能测试,,并测试算法中重要参数对算法检测性能的影响,以及测试算法在滚动轴承故障检测中的泛化能力。
其他文献
伴随着共享经济的蓬勃发展,共享单车开始迅速出现在全国各大城市,一方面打通了市民出行的"最后一公里",缓解了城市交通拥堵和环境污染状况,另一方面包括高比例的损毁报废率,
【正】 从中国人口史上看,我国对人口的管理与研究,在二千五百多年前的东周时期就开始了。东周时期的著作《周礼·职方氏》一文中,有当时周朝全国各地(九州)人口性别构成
从股权因素内生化的视角研究企业多元化经营绩效。实证结果显示,多元化折价普遍存在;国有股比例、公众股比例均与企业价值成倒U型关系,法人股比例则成U型关系,股权集中度指标
2007年10月23日.在美国加利福尼亚州圣迭戈县.一座房屋在大火中燃烧。迄今为止大火已经焚毁1500家民居.并直接威胁6.8万户:火灾给当地造成的直接经济损失,初步估算超过10亿美元。
期刊
目的:探索99mTc-EHIDA肝胆动态显像在兔肝损伤模型中对肝脏储备功能的评估作用,为建立一种更加准确的评估肝脏储备功能的方法,从而降低患者术后肝脏功能衰竭的发生率提供新思
根据大数据理论,将供应商行为进行数据化描述,搭建了供应链大数据平台,并将供应商大数据来源进行了详细的解释,通过供应商大数据构建供应商画像,提出了基于供应商画像的供应
背景与目的:胃癌是威胁人类生命健康的常见消化道恶性肿瘤,其发生机制目前尚未完全明确。我国是胃癌的高发区,研究胃癌的发生、发展过程,对早期诊断和治疗胃癌,提高胃癌的治
核心提示$$11月15日,全省军民融合产业发展大会召开,进一步贯彻党的十八大和十八届三中、四中、五中全会精神和习近平总书记系列重要讲话精神,落实中共中央、国务院、中央军
报纸
宫颈癌是一类严重威胁妇女生命健康的疾病,宫颈癌的发病率和死亡率都很高,并有逐年上升的趋势。高危型人乳头状瘤病毒(human papilloma- virus,HPV)与宫颈癌发病关系密切,在8
食管癌是人类常见的消化道恶性肿瘤,我国是食管癌的高发国家,全世界每年新发病例约31.04万人,而我国占16.72万人,尤以河南较为严重,其死亡率居全国首位。从全世界范围看,食管癌仍是