【摘 要】
:
分类分析作为数据挖掘的一个分支,是相对独立和成熟的研究领域,在实际生活中有着广泛的应用场景。在现实生活中存在大量样本数量在不同类别之间相差很大的类别不平衡数据,其中称样本量多的类别为多数类,样本量少的类别为少数类。例如,在信用卡诈骗检测中,诈骗用户是少数类,其它用户是多数类。传统分类算法对类别不平衡数据进行分类时会倾向于将样本划分为多数类。但是需要关注的焦点是少数类,对少数类的分类效果直接决定了分
论文部分内容阅读
分类分析作为数据挖掘的一个分支,是相对独立和成熟的研究领域,在实际生活中有着广泛的应用场景。在现实生活中存在大量样本数量在不同类别之间相差很大的类别不平衡数据,其中称样本量多的类别为多数类,样本量少的类别为少数类。例如,在信用卡诈骗检测中,诈骗用户是少数类,其它用户是多数类。传统分类算法对类别不平衡数据进行分类时会倾向于将样本划分为多数类。但是需要关注的焦点是少数类,对少数类的分类效果直接决定了分类分析的成败。例如,信用卡诈骗检测,银行特别关注用户诈骗行为识别的准确性,一旦识别错误,欺诈交易会带来巨大的损失。不平衡数据的分类问题由于其分类难度大且与现实问题高度相关,在近年来也越来越受到学术界的重视。为了解决上述问题,本文依据相关研究理论做了如下工作:1.针对类别不平衡数据,基于Adaboost算法进行基分类器选择的实验研究。在分析类别不平衡数据时,基分类器的选择对集成算法的分类效果的影响值得关注。本文选择了决策树分类器、逻辑回归分类器、朴素贝叶斯分类器和SVM支持向量机分类器作为基分类器;除了采用Recall、Precision、F1-measure、G-mean四个评价指标外,还将任务耗费时间作为评价指标;选择了10个UCI数据集作为实验集。实验结果表明,选择决策树分类器作为基分类器,对类别不平衡数据分类任务有不错的分类效果。2.针对类别不平衡数据,构造了基于集成学习和代价敏感的新分类算法——USCensemble算法。通过比较Adaboost及其衍生类算法,分析了各算法的不足。借助Easy Ensemble的算法结构,结合代价敏感思想引入错分代价项及样本权重调节因子项,提出了基于集成学习和代价敏感的USCensemble算法。并且该算法改进了欠采样策略,将欠采样重点放在难以分类的多数类样本上。USCensemble算法在削弱噪声影响的同时,能提高分类器的多样性,从而提升对少数类的识别能力。最后做了实验研究,选择了15个典型的UCI数据集,四个对比算法(Adaboost、Adacost、USCboost和Easy Ensemble),采用了Recall、F1-measure、G-mean和AUC作为评价指标。实验结果表明USCensemble算法在处理类别不平衡分类任务上具有一定的优势。
其他文献
从时间的连续性观点来看,复杂动态网络分为连续时间复杂动态网络和离散时间复杂动态网络.相对于连续时间复杂动态网络而言,离散时间复杂动态网络更适用于表达数字传输信号.近年来,同步作为一种重要的网络群体行为引起了国内外相关研究人员的密切关注.通常情况下,网络不能自发地到达理想的同步状态,控制是实现网络同步的有效手段.从而,讨论离散时间复杂动态网络的同步控制问题具有非常重要的意义.注意到,现实网络中的节点
自动化及人工智能技术的广泛应用改变了月球车等复杂系统的人机协同作业方式,也使操作人员的技能需求发生了变化,因此有必要针对人-自动化系统协同任务技能需求及其影响开展研究,为人-自动化系统协同作业设计、人员选拔和技能培训提供理论指导。本文构建了人-自动化系统协同任务技能需求概念和度量模型,分析了月球车系统协同任务中航天员的技能需求,并通过人因实验探究了技能需求的影响。论文的主要工作如下:(1)构建了人
随着高光谱成像技术的研究与发展,高光谱图像受到了广泛的关注,应用领域也逐渐多样化。高光谱成像技术高效地将图像的空间维度和光谱维度融合起来,实现了“图谱合一”。高光谱图像与RGB图像和多光谱图像相比,丰富的光谱维度能够呈现出更精确的地物信息,因而各种高光谱图像处理技术应运而生。而高光谱图像聚类作为高光谱图像数据分析的重要研究方向之一,面临着高维度和大数据量的挑战。针对高光谱图像光谱信息丰富、空间结构
最优控制问题可以理解为在满足状态方程,且能达到控制任务目标集的情况下,解出能使性能指标最小化的容许控制变量.将数值计算方法在求解最优控制问题上一直是一个被广泛研究的课题.偏微分方程约束的最优控制问题在工程、医学、生物学、工业等领域都有所应用,例如在流体力学、癌细胞追踪、金属冶炼过程等.本文中,针对使用有限差分方法及共轭梯度法、牛顿法求解椭圆最优控制问题得到的理论性质进行研究,并且通过数值实验验证了
交通工具轻量化的需求促进了镁合金在汽车领域的应用,其中变速箱体、传动箱体等部件既要求成型工艺的简约化又要求材料具有良好的高温力学性能,而压铸耐热稀土镁合金同时兼顾了这两方面的优点,因此得到了较为广泛的应用。目前针对耐热稀土镁合金的压铸工艺与微观组织之间的研究还相对较少,关于模具优化改进更是鲜有研究。因此,本文选用两种高性能耐热稀土镁合金(AE44稀土镁合金和JDM1稀土镁合金),通过X射线同步辐射
随着现代工艺技术和高精尖设备的发展,四氧化三铁纳米颗粒(MNPs)在各个领域有着广泛的应用。作为应用最多的纳米材料之一,四氧化三铁纳米颗粒存在尺寸效应及溶液不稳定等缺点。传统的改性方法具有化学试剂残留、改性方法繁琐、价格昂贵、对其物化性质造成不可逆的影响等特点,因此不宜被广泛推广。低温等离子体改性是一种较为温和、操作简单、放电产物对环境无污染的新型改性手段,可以有效的避免改性方式对材料结构和性质造
一重Dirichlet级数是一类历史悠久的级数,其在解析数论中发挥着重要作用.在单复变函数论中,学者们把该级数的和函数作为解析函数,研究其增长性,并在此基础上研究此类函数的值分布,随着多复变函数论的发展,对这类级数的研究也从一重转向多重.本文主要研究多重Dirichlet级数的增长性,其中包括在全平面和乘积半平面的增长性,在刻画它的增长性中使用了(p,q)级、型等概念.本文的文章结构主要分为五个章
随着我国风电行业迅猛发展,风电机组的故障诊断问题日益受到关注。风机叶片覆冰作为寒冷地带风机频频发生的一类故障,通常会导致发电量降低、叶片断裂、冰体脱落砸伤工作人员等一系列危害,对其进行实时检测及故障预测研究具有十分重要的意义。本文从实际应用出发,研究了基于数据驱动的风机叶片覆冰故障理论与算法,提出了一套切实可行的叶片覆冰故障检测与预测方案。主要研究内容如下:(1)对沈阳某风场的SCADA(Supe
不动点理论及应用一直是非线性泛函分析学科中重要的研究课题之一.自Banach提出压缩映射原理,不动点理论的研究被国内外学者所青睐,现已成为基础数学活跃的研究领域之一.学者们通过研究不同类型的算子,或者将一般的度量空间推广去探讨算子的不动点问题,取得的成果丰富了不动点理论.本文在-度量空间中研究了某些类型的算子不动点的存在性和唯一性问题,全文分为以下四章:第一章介绍了不动点领域的知识背景和研究意义,
近年来,分数阶微分方程在多个领域都有着广泛的应用,对分数阶微分方程进行数值分析已经成为了一个重要的课题.本文提出了一类带有Neumann边界条件的时间分数阶积分微分方程的数值解法.本文分为三章.第一章为绪论,主要介绍分数阶微积分的研究背景及意义,和国内外对于分数阶微分方程相关的研究状况.最后简要概述本文所研究的分数阶积分微分方程.第二章介绍了分数阶积分微分方程在一维空间上的紧差分格式.分别对Cap