非平衡数据相关论文
[目的]研究创业板上市公司财务造假检测识别问题,构建异常检测模型对公司财务欺诈进行检测和识别。 [方法]构建了基于数据融合的财......
地中海贫血病(简称地贫)是一种严重的遗传性血红蛋白病,常见于我国南方地区。中、重型地中海贫血患者,因目前尚无根治方法,常见的治......
经过数十年的开发,中国东部老油田基本已全面进入高含水、高采出阶段,但实践表明由于夹层控制了储层内的流体流动,影响了垂向渗透......
随着大数据时代的发展,各行各业都呈现出了数字化、信息化的趋势。由于医疗与民生的高度相关性,所以医疗大数据的发展也越发引人关......
Z.Pawlak于1982年提出来的粗糙集理论是一种描述不完整性和不确定性知识的数学理论工具,该理论已被应用于智能计算技术领域研究中,......
脑卒中是一种严重影响人们身心健康的急性脑血管疾病,只有通过早期筛查和积极干预,做到早发现早治疗,才能将其危害降至最低。流行......
学位
风电机组叶片结冰检测,对风电机组的安全性、可靠性与经济性,具有非常重要的现实意义。本文针对风电机组运行观测数据的非平衡和单点......
在机器学习领域中,解决分类问题的算法针对的大多都是基于均匀分布的平衡数据的分类问题,而对于非平衡数据分类问题,达不到理想的......
摘 要:运用秩次分析法,对4个年度四川省特殊类型小麦区试参试品种表现的秩次值H2、环境区分指数YM、秩次圴方值S2等统计分析,从而对......
企业财务困境预测是金融界的一个长期研究热点,由于其复杂性,人们从不同角度进行了建模研究,主要包括以下两类方法:1)以企业财务比率为......
无论在现实生活还是网络世界都存在着大量的数据,但是数据不代表信息和知识,因此获取有用数据的数据挖掘技术应运而生。分类是数据挖......
支持向量机(SVM)是由Vapnik在统计学习理论的基础上提出的一个新的通用的机器学习方法。由于在学习问题中出色的泛化性能,支持向量......
IB方法是基于率失真理论的无监督数据模式分析方法,它自1999年提出至今已在众多领域取得成功的应用。IB方法具有严密的理论基础,它......
非平衡数据分类问题广泛存在于现实世界中,如医疗诊断、雷达图像监测、诈骗检测等。由于其固有的不均匀特性,即正负样本数目相差悬......
基因表达式编程(GEP)算法是一种融合了遗传算法和遗传编程的新型演化计算方法,目前己被广泛应用于函数发现、数据挖掘等领域。多表......
随着计算机网络的爆炸式发展,如何保障网络安全成为人们亟需解决的问题。入侵检测系统在网络安全方面发挥的积极作用使它成为人们关......
网站在日常办公中的日益普及,一方面给我们的生活带来了便捷,另一方面也需要我们预防形形色色的网站入侵行为。而IIS网站日志记录......
随着我国经济的不断发展,越来越多的人开始接受信用贷款的超前消费模式,个人信用贷款业务在银行贷款业务中的比重不断上升,P2P(Pee......
数据分类是知识发现与数据挖掘领域的一项重要任务。然而,大多分类算法均以数据分布平衡为前提,这并不适用于非平衡数据分类问题。......
心血管疾病是威胁人类生命健康的重要疾病之一,具有高患病率、高致残率和高死亡率等特点。心律失常是一类常见的心血管疾病。心电......
随着信息时代的飞速发展,各种数据呈现出爆炸式的增长态势。同时,数据形式也变得复杂且多样,给以机器学习为核心技术的数据挖掘带......
在机器学习领域中,分类是一项非常重要的任务。然而在现实生活的分类任务中,不同类别的数据可能存在重叠部分,分类时会出现不可分......
现实生活中存在很多非平衡数据,其中的少数类往往更具有价值,但是传统的分类器通常都是以最大化总体分类精度为目标,从而不能有效......
非平衡数据的分类问题是机器学习和数据挖掘领域的一个重要研究方向。少数类样本相对于多数类样本而言,数量少,但却含有更大的价值......
随着信息技术与工业制造的深度融合,设备运行过程中不断产生的海量状态数据被保留下来,使利用大数据分析的方法对设备故障进行有效......
非平衡数据的分类问题是机器学习和数据挖掘中的重要研究方向。在实际生活中非平衡数据广泛存在,许多重要信息存在于少数类样本数......
P2P网络借贷是以互联网为运营媒介的新兴借贷模式,为社会中的资金需求群体提供了一种新的筹资路径,弥补了传统金融机构的不足,缓解......
在模式分类问题中普遍存在着数据集不平衡的现象,即不同类的样本在数量和分布上存在较大差异。非平衡数据的分类具有着重要的现实意......
区域化探数据直接推断地表层次结构分布,有效反映地质空间分布,一般利用区域探数据对地质进行数据挖掘,技术核心是如有有效借助数......
证券投资基金随着证券市场的不断发展而日益壮大。在2007年股市的黄金时期,基金净资产实现了一万亿到三万亿的突破,多只基金净值翻......
不管是在真实世界获得的数据集,还是仿真平台获得的数据集都存在着大量的非平衡特性。非平衡意味着数据集中不同类别数据的数据规模......
针对传统分类器对于非平衡数据的分类效果存在的问题,提出了一种基于高斯混合模型—期望最大化(GMM-EM)的对称翻转算法.该算法的核......
本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响.首先基于模拟数据,探究了混合抽样......
线性混合模型是既包含固定效应又包含随机效应的一类线性模型,它被频繁应用于生物、医学、经济、抽样设计和质量控制等过程.作为线......
目的构建数据不平衡时癫痫发作频率预警模型。方法以2008年9月~2011年1月在临沂市人民医院就诊的736例癫痫患者为研究对象,进行癫痫......
欠抽样是一类常见的解决非平衡数据分类的技术.传统抽样方法(如Kennard-Stone抽样和密度保持抽样)只考虑保持数据分布.已有欠抽样......
完备混合型信息系统下的粗糙集模型是传统粗糙集模型的重要扩展,目前关于非平衡数据属性约简的研究仅限于完备混合型的粗糙集模型......
期刊
情绪对人们日常生活和工作有重要的影响,基于生理信号监测及分析能客观评估个体情绪状态,对健康监测、人机交互等起着重要的作用。......
针对管道运行状态数据的非平衡性会造成管道泄漏诊断准确率下降的问题,提出了一种基于非平衡数据的管道泄漏检测与定位方法.首先,......
为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面......
利用朱军教授等根据混合线性模型理论所提出的作物品种区域试验非平衡资料的统计分析方法,以宁夏1999-2000年水稻区域试验晚熟组的......
对于非平衡聚类问题,传统K-均值聚类方法容易将分布在较大区域类中的样本错误划分到小区域类别当中,即存在聚类结果的均匀效应.针......
在现实世界的数据分类应用中,通常会遇到数据不平衡的问题,即数据中一类数据的数量要大于另一类数据的数量。在目前针对非平衡数据的......
信息瓶颈(Information Bottleneck,IB)方法在处理非平衡数据集时,倾向于将大簇中的数据对象划分到数据规模较小的小簇中,造成了聚类......