非平衡数据集分类算法及其应用

来源 :山西大学 | 被引量 : 3次 | 上传用户:jiangjunaiai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据集是指同一个数据集中某些类的样本数远远少于其他类的样本数,它广泛存在于现实生活中.利用传统的机器学习方法分类,对于数目少的类来说分类准确率很低,而对于数目多的类则相对较高.但在非平衡数据集中,数目少的类往往是关注的对象,因此传统算法对于解决非平衡数据集分类问题的能力有限.近年来,非平衡数据集的分类问题得到了国内外专家的广泛关注,取得了一些成果,并在相关领域得到应用.本文在KAIG模型的框架下,基于信息粒的观点,对非平衡数据集分类问题和知识获取做了进一步的研究,并将其应用于电信客户流失预测领域中.本文主要取得了以下研究成果:(1)对KAIG算法进行了部分改进,引入了Purity参数来度量粒重叠的程度.实例表明它有利于确定粒重叠程度和在无法完全消除粒重叠现象时可以设定一个阈值来判断是否达到某种可接受的粒重叠程度,这为原有KAIG模型提供了一个新的度量工具.此外在利用次属性解决粒重叠问题时,若属性值为连续型数据,则将其转化为离散型数据再利用次属性来降低粒重叠程度,不断由Purity参数来决定是否校正次属性区间.虽然不能完全消除粒重叠,但是可以大大减少粒重叠的程度,有助于更有效地在属性值为连续型数值型数据中提取规则.实验表明改进的KAIG算法不仅对非平衡数据集分类性能较好,而且对于平衡数据集的分类性能也与其他传统分类算法基本相当,特别在当属性值是连续值时比原有KAIG算法分类性能更好.(2)将改进的KAIG算法应用于电信客户流失预测问题.由于电信客户流失是较为典型的非平衡数据集,以山西省某市某电信运营商2007年4月至7月的固定电话用户的数据为训练集,对其提取规则,并预测了2007年8月的客户流失情况.同时与目前该运营商以C5.0和Logistic回归方法为核心的客户流失预测模型进行了对比,实验证明了该算法的有效性.在针对电信客户流失预测的实际问题中,首次将ROC曲线引入来度量电信客户流失预测的准确率.本文对非平衡数据集的分类问题和电信客户流失的预测问题进行了一些研究.但是,如何对具有定性属性或者混合属性的非平衡数据集进行有效分类以及如何将竞争对手分析、服务质量等纳入电信客户流失预测模型中还值得研究.本文的研究工作只是一个尝试,相关工作还有待进一步研究.
其他文献
该课题对直升机尾浆试验台拖动与计算机监控系统进行设计,可以完成对直八、直十一和专武直升机尾浆工艺参数的测试.
该文主要以上海炼油厂年产50万吨延迟焦化装置为实际应用背景,重点探讨了粗汽油干点的软测量技术及工业应用研究.通过对粗汽油干点软测量模型的数据采集、处理、建模及在线校
以钢铁企业的大型多辊热连轧机生产线板材产品质量控制为目的,以产品质量提高、产品成本降低、适用辅助新产品新工艺设计为宗旨,提出了基于神经网络产品质量模型、逆质量模型
该文首先介绍了国内外在CIMS企业建模方面的所取得的丰富成果,在分析比较了各种建模方法之后,着重介绍了KBSI公司在九十年代新发展起来的IDEF4方法,该方法在面向对象的系统建
研究混沌系统的控制不仅具有高度的理论价值,也具有深远的实际意义。自从人们发现混沌系统可以被控制以后,混沌系统的控制研究便受到了高度的重视,随后有关混沌系统控制的许多方
该文提出了基于小波包交换的电网谐波分析方法,并对各种分析工具进行了比较,并把小波变换应用于变压器差动保护中,对励磁涌流和短路波形进行了区分.该文还提出了基于小波包变
该文针对目前国内测功机存在的不足,如:不能连续测量汽车在不同工况、不同负载状态下的动力性能,检测控制系统和控制方法比较落后等,重新设计了检测和控制系统的硬件结构,提
该论文的工作是围绕着将模糊控制技术应用于异步电动机的直接转矩控制调速系统展开的.该论文详细地介绍了异步电动机的模糊直接转矩控制方法.该论文在内环采用模糊控制器控制
该文比较详细地讨论了基于伪线性化原理的非线性系统控制理论,包括反馈控制、输入约束控制、预测控制、奇异控制等方面的内容,以期建立伪线性系统控制的系统框架.全文的主要
该文首先简单介绍了有关并行系统现状,并讨论了相对于其他并行系统,机群系统的主要优势.然后概要的阐述了并行编程的基本内容.并进一步分析了在机群系统为何采用基于消息传递