面向不平衡分类的逻辑回归算法

被引量 : 0次 | 上传用户:nalbuphine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
类分布不平衡的数据集在现实生活中大量存在,传统的成熟分类算法大多建立在数据集类分布大致平衡这一假设上,而对于类分布不平衡的数据集往往取得较差的分类效果。而且,在不平衡分类问题中往往少数类比多数类具有更重要的意义,因此不能仅仅使用准确率来评估不平衡分类算法的性能,对于不平衡分类问题可用召回率、g-mean值以及f-measure值等评估指标对不平衡分类算法进行评估。逻辑回归算法是数据挖掘中常用的分类方法,尤其对于两类分类问题。逻辑回归算法最明显的优势就是它是基于概率的分类算法并且很容易被扩展到多类问题,但是逻辑回归并不适应于不平衡分类问题,因为其目标函数是最大化每个实例被正确分类的概率的对数之和,而不考虑该实例是少数类还是多数类,这样会导致将更多的少数类实例误分为多数类。因此在逻辑回归的基础处上,本文根据类分布不平衡数据集的特点,结合传统的逻辑回归算法和三个不平衡分类问题的评价指标召回率、g-mean值以及f-measure值提出了三种适合于不平衡分类的目标函数LRM(Logistic and Recall based Metric)、GBM(G-mean based Metric)和FBM(F-measure based Metric),在这三种目标函数的基础上,本文提出三种适合于不平衡分类问题的分类算法RBLR(Recall Based Logistic Regression)、GBLR(G-mean Based Logistic Regression)和FBLR(F-measure Based Logistic Regression)。在这三种算法的求解过程中,使用拟牛顿法来解决最优化问题,预测阶段使用和传统的逻辑回归算法类似的方法进行预测。在16个UCI数据集上的实验结果表明,本文提出的三种算法RBLR、GBLR以及FBLR能在很好的在保持较高准确率的前提下,有效地提高少数类的召回率、g-mean值以及f-measure值。与过采样逻辑回归OSLR(Over-Sampled Logistic Regression)和欠采样逻辑回归USLR(Under-Sampled Logistic Regression)相比,本文提出的算法也表现出明显的优势。
其他文献
诗意课堂,该是一个怎样的课堂?冯铁山老师用他轻悠缓慢的语速,恬淡隽永的语言诠释了诗意课堂。那我所行走的品德诗意课堂该是怎样的?我想诗意的品德课堂应有诗意的教师,通过教育的
导弹是现代武器库最耀眼的"明星",在最近几场局部战争和空袭中,各种导弹大发神威,进入21世纪美国的NMD和TMD更是甚嚣尘上,为此,各国都把拥有多少先进导弹,作为军事实力的重要
地方志作为综合记录一地地方事务的志书,不仅完整参与了一地地理社会和人文社会的建制沿革与发展变迁,也较为全面地构成了一地历史记忆的文字保存方式。仅从其占有地方全史资料
环境解说源自于美国,是西方发达国家在国家公园和遗产保护地针对公众进行讲解普遍使用的一种方法。本文通过选择北美(美国和加拿大)大学中开设了环境解说课程或专业的学校进
结合生产实践,对本钢回转窑生产供转炉炼钢用高质量石灰进行研究。通过制定严格可行的石灰石入窑技术条件,合理配矿,保证入窑石灰石成分及粒度满足回转窑生产工艺及生产高质
针对卫勤演练中存在的脱离实战,军队医务人员缺乏卫勤实战经验,战救意识不强等问题,在野战医疗队卫勤训练中引入按战伤救治规则要求培训的标准化患者,模拟战时伤病员,有利于
马克思主义中国化史的进程和分期是马克思主义中国化史研究中的一个基础性问题,对于这个问题学术界有多种意见,本文在评析各种意见的基础上提出了关于马克思主义中国化历史进
ADS-B系统是一种新型的空域监视技术,在处理空中交通信息时具有准确性、可靠性和及时性的特点,逐渐成为了主流的监视手段。为目前检测雷达战术性能缺乏调度,测试环境复杂多变
目的探讨军队大型综合医院医疗质量与安全管理的监测评估体系构建及面临的问题。方法通过文献回顾,结合实施医疗质量监测管理的工作经验,梳理医疗质量监测、临床管理决策、质
结合野战医疗所训练实践,分析建设过程中存在的主要问题,以找准训练重点、挖掘训练深度、锻造应战能力为对策,提升野战医疗所核心保障能力。