基于数据平滑的类不平衡学习研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:fenderchu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类不平衡数据处理是当今机器学习与数据挖掘领域的研究热点与难点之一。在类不平衡数据分类中,类重叠度、噪声样本、变量维度以及数据共线性等因素都对不平衡学习的性能产生影响。针对这些问题,现有的研究主要是从数据层面和算法层面来处理,但问题仍然没有得到有效的解决。因此,本文引用函数型数据分析方法来处理类不平衡数据,主要从两个方面来研究。一方面,将函数型数据分析方法的思想引入类不平衡数据中。采用B样条基和Fourier基两种数据平滑方法对类不平衡数据进行拟合,选用两种函数型数据分类方法,应用线性判别分析、支持向量机、K-近邻和决策树算法作为分类器对类不平衡数据做分类。由4种评价指标得出,基于函数型数据分析方法的分类精度在整体上有所提高。另一方面,针对变量维度和数据共线性等问题,应用函数型主成分分析和函数型偏最小二乘法两种特征提取方法对类不平衡数据进行降维,并与传统的主成分分析和偏最小二乘法做对比。结果表明,函数型主成分分析的降维效果更好,能以更少的变量包含原数据的绝大部分信息,且基于函数型主成分分析的分类结果优于传统主成分分析的分类结果。在偏最小二乘法降维后选取相同变量的情况下,基于函数型偏最小二乘法的分类精度在整体上有所提高。本文基于数据平滑分析方法和传统分析方法对类不平衡数据分类,通过将两组分类结果进行比较,由4种评价指标得出基于数据平滑分析方法的分类精度有所提高。这表明利用平滑方法将数据拟合成函数型形式,在一定程度上能够消除观测误差,降低噪声样本的比例和类重叠度,从而提高分类精度,尤其是少数类的分类精度,这对类不平衡数据分类具有重要意义。
其他文献
在轴向运动的Rayleigh梁系统中,速度的存在会使系统产生横向振动行为,从而对系统的性能产生一定的影响。因此,对系统的横向振动行为进行合理的控制,使其达到更稳定的状态,进而实现优化系统性能的目的是非常有必要的。本文将时滞控制应用在几种不同边界条件下的轴向运动Rayleigh梁系统中,分别研究了时滞量以及时滞反馈增益系数对系统稳定性的影响。主要内容和研究成果如下:(1)利用哈密顿能量变分原理,推导
灵芝是一种食药用真菌,在几千年前就已被应用于疾病治疗。灵芝多糖具有免疫调节、抗肿瘤、抗氧化等多种药理活性,因此提高灵芝多糖的生产具有重要的意义。在多糖生物合成途径中,甘露糖磷酸变位酶是参与前体核苷酸糖GDP-甘露糖生物合成的关键酶。并且在某些植物和微生物中,甘露糖磷酸变位酶基因的表达与多糖的生物合成呈正相关。早期研究发现,在灵芝中过量表达多糖生物合成途径中的关键酶基因,能够有效提高灵芝多糖的生物合
多年来肺癌发病率和死亡率位居全球恶性肿瘤之首,且青年发病人群在增多,成为人类健康的重大威胁。目前尚无根治肺癌的方法,初期常用手术治疗以延长生存时间,但肺癌初期没有明显异常,难以发现。非小细胞肺癌(NSCLC)是最常见的肺癌类型。晚期肺癌的常用手段为药物靶向治疗,目前NSCLC治疗药物主要靶向表皮生长因子受体(EGFR),但其具有适应人群狭窄的局限,因此研究NSCLC发生发展的潜在机制,寻找新的治疗
正态分布是统计分析中最常用的分布,在传统的统计研究中,通常假定数据具有对称性。但在医学、金融和社会经济等领域中,存在大量的偏斜数据。为了研究这类问题,统计学者提出了许多具有非对称性的统计模型,其中常见的有基于偏正态分布和偏t分布的模型。但在实际生活与应用中也存在大量偏斜且厚尾的数据,此时正态分布、偏正态分布和偏t分布下的方法或者模型就不再适用于这类数据,因此有必要建立偏Laplace正态分布下的统
本学位论文研究了二维及三维浸没物体激励的数值模拟方法.基于源面板方法建立了二维时域中浸没圆柱倾斜激励模型以及三维时域浸没单球和双球激励的数学方程模型,研究了浸没结构体激励的水动力学特征.本文的主要工作有:(1)建立基于源面板法水下圆柱体倾斜激励的数学模型,在自由面与圆柱体表面布置合适的源点建立边界积分方程,将边界积分方程进行离散化为线性代数方程组,数值模拟浸没圆柱体倾斜激励下圆柱体表面压力与波高的
波浪能的高效开发与利用对解决资源短缺、减少环境污染和促进能源可持续发展等方面都具有重要的科学价值和现实意义。冲击式空气透平作为振荡水柱波浪能系统重要的中间能量转换装置,其转换效率相对较低,导致振荡水柱波浪能发电装置的整体发电效率不高。为此本文以冲击式空气透平为研究对象,基于CFD数值方法,研究了在单向稳态流动条件下,不同的叶片厚度、叶片旋转角和叶片入射角对冲击式透平效率和气动性能的影响。同时还研究
空间数据由于信息量丰富、结构特殊、复杂程度高,对其进行合理的分析不仅有着重要的社会经济价值,还有着重要的统计学意义。在空间数据的相关分析中,由于Copula函数能描述空间数据的空间相关结构,近年来该方法逐渐被用于空间数据的建模中。本文在Copula理论的基础上,使用形式更为灵活的C-Vine和因子Copula对空间数据进行建模分析,具体而言,本文工作可分为以下两个部分:(1)针对空间数据建立了空间
采用经济学的规范研究方法,考察了地方政府、房地产商和社区居民三者在我国社区体育场地供给中的成本和收益,对我国房地产开发与社区体育场地建设的和谐和冲突进行了理论阐述,对我国房地产开发过程中地方政府的补贴和监督责任进行了经济学分析。针对社区体育场地严重不足的问题,提出我国房地产开发过程中社区体育场地有效供给的政策建议:明确政府供给主体地位;建立、健全法律法规体系;加大监督管理力度;增加政府财政投入;鼓
保角变换也称共形映射,是复变函数中的重要问题之一,它在电磁理论、光学、流体力学等物理问题的很多领域中都有着广泛应用.数值保角变换计算法在处理工程中的实际问题时,具有应用便捷和精度高等显著优势.模拟电荷法是利用位于问题区域外部的点电荷的电势来求解二维Laplace方程的边值问题的近似解的一种算法,该方法得到的近似解对于Dirichlet边值问题精度较高.日本的Amano等数学研究者从上世纪80年代起
尖孢镰刀菌(Fusarium oxysporum)作为世界性土传病病原体主要危害茄科、豆科、瓜类以及经济作物。三七(Panax notoginseng(Burk.)F.H.Chen)是一种名贵的中药材,尖孢镰刀菌也是三七根腐病的病原菌。尖孢镰刀菌作为病原菌对这些作物的种植产生巨大的影响,经济损失严重。然而对尖孢镰刀菌致病机理的研究还比较有限,特别是尖孢镰刀菌导致三七根腐病的机理还未见报道。有研究表