基于集成学习的不平衡数据分类算法研究

来源 :大连大学 | 被引量 : 2次 | 上传用户:wstpxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类任务是数据挖掘和机器学习中基本的研究内容之一,在商业交易、金融市场、电信服务、数据分析、科学研究等许多领域中有着广泛的应用。传统的分类算法是在假设数据平衡的基础上提出的,优化整个数据集的准确性。在实际生活中,许多提供给分类任务的数据集往往是不平衡的,比如软件缺陷检测,信用卡欺诈交易预测,医疗疾病诊断和图像检索。当现有方法学习该不平衡数据时,分类模型会将未知样本偏向划分为多数类,而导致少数类样本无法识别。而在实际应用中,预测少数类类别的准确性至关重要,因为将少数类样本错误分类代价与多数类样本错误分类代价相比,少数类样本的错误分类的代价更大。研究如何提高分类器对不平衡数据的分类精度有着重要的意义。目前为解决不平衡数据分类提出的算法中,集成学习因为融合多个基础分类器得到较好的泛化性能而得到研究人员的青睐,但是处理高度不平衡数据和复杂不平衡数据时,依旧存在泛化能力不强的问题。因此,本文主要立足于集成学习提出泛化能力较高的算法用于不平衡数据的分类。论文主要研究内容和创新工作如下:(1)针对高度不平衡数据,本文基于距离融合规则提出了平衡集成学习模型(DBEDCR),并有效应用高度不平衡数据分类任务中。DBE-DCR基于DBE集成模型,首先将高度不平衡数据划分为多个平衡度较低的子集并在各个子集中进行过采样以保证每个子集中有足够的学习样本。最后由DCR将DBE集成模型的输出结果融合输出,DCR考虑了待分类样本与学习样本间的关系以调整DBE模型的输出获得更好的泛化能力。在KEEL公开数据存储库收集的48组不平衡数据上进行实验,实验表明DBE-DCR与当前最优方法相比表现出相当甚至更好的性能。(2)针对复杂不平衡数据,本文基于集成学习算法提出了动态决策算法(DESD)。目前为不平衡数据分类问题提出的方法没有考虑到类别重叠等复杂数据问题,甚至在处理后恶化复杂数据区域。为解决该问题,本文提出了一种新的动态决策算法。首先,DESD重复随机分裂技术将数据集划分为多个平衡子集,这些子集不包含或很少包含类重叠等问题。然后,提出了一种综合整体正确率和少数类正确率的选择准则挑选出能力较强的分类器参与最后的集成。同样在KEEL收集的不平衡数据集上对所提出方法进行了测试与比较,实验表明提出的DESD算法优于同类方法。
其他文献
“V到”是现代汉语中使用频率较高的多义动补结构,其形式和语义的多元化组合使得“V到”在动补类型上存在诸多争议。前人研究多从句法、语义、语言习得等视角展开,集中于动词配价、语篇功能、习得偏误等层面,从认知视角对“V到”进行的系统性构式研究较少。本研究基于兰卡斯特汉语语料库,从Talmy的宏事件理论入手,首先探讨“V到”结构的认知语义特征。其次,借助认知构式语法下的压制理论探讨“V到”构式节点扩展背后
近年来智慧医疗飞速发展,利用人工智能技术辅助医疗诊断已经成为趋势,国内外对机器学习辅助医疗的研究的也越发成熟,许多关于疾病的机器学习预诊模型都已建立。采用机器学习
传统的计算机视觉技术主要基于彩色相机获取的颜色或灰度信息,容易受环境光照变化和物体颜色纹理的影响。提取出的目标物体轮廓在图像帧序列中呈现不稳定状态,给后续的处理带
交通标志的检测和识别近年来引起了学术界和产业界的兴趣,一些简单版式的交通标志(如限速标志)的识别已经有产品投入使用,而对于复杂版式交通标志的研究还处于初期阶段。高速
公路作为现代社会发展必需的重要基础设施,在客货运输、经济建设和生产生活中都具有不可替代的作用和地位。随着经济的不断发展,对公路的需求也不断增加,公路建设已成为发展
为了实现更加快捷方便高精度的惯性平台的自标定技术,本文针对连续翻滚自标定方法进行研究。首先分析了惯性平台和惯性仪表存在的主要误差参数,包含惯性平台各框架轴的垂直度
数据包络分析是一种由数学、运筹学、管理科学等学科延伸出的非参数绩效评估方法。但数据包络分析方法无法区分所有决策单元并获得所有决策单元的排名,另外,其允许每个决策单
随着信息时代的快速发展,人工智能已经在逐渐普及到人们的日常生活中,给人们的日常生活带来了极大的便捷的同时,也提高了人们的生活质量。信息时代的快速发展与传感器的发展
传统的支护结构一般不能回收利用,造成资源浪费。而可装配可回收的深基坑支护体,可以达到支护体系全部回收。本文对装配式支护体系的竖梁、横梁、锚索(杆)进行设计并采用大型
酶生物燃料电池(EBFCs)可以将燃料中的化学能或生物化学能转化为电能,因而备受关注。EBFC以生物质为燃料,工作条件温和,可作为绿色生物能源,也可作为植入型医疗、自供能传感