基于训练实例影响的非均衡数据分类

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:litongyi88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在二元分类问题中,非均衡数据集所具有的特征是两类实例个数明显不同。已有的分类方法在分类过程时多以最大化模型的整体分类效率为目标而忽视少数类实例的分类性能。但在现实多种场景中,少数类实例却有着更好的挖掘价值,是需要被关注的对象,例如,在网络入侵检测中,那些存在欺诈违法的入侵者才是应该被发现的。因此,非均衡数据集分类问题是需要相关科研人员研究的一个热点课题。本文从影响函数和网络分类模型两个角度入手,将改进的影响函数与k近邻结合的方法和基于网络结构的方法应用到非均衡数据分类的研究中,最终的分类规则是将测试实例划分到对它累积影响较大的训练实例所在的类。仿真结果表明,本文所提算法较传统分类模型有着明显的优势。具体创新之处可概括如下:(1)针对传统网络分类器应用于非均衡数据分类时会倾向于多数类实例的问题,本文提出了一种基于网络结构的非均衡数据分类方法。该法区别对待多数类实例和少数类实例,对由Pagerank算法计算出的初始节点影响力进行再分配来提升模型对少数类实例的关注,同时,针对传统网络分类器等同对待不同类实例属性的问题,本文则利用模糊熵概念分别为每个类的实例属性计算权重,并将其用在节点局部效率和实例之间物理特征的计算上。仿真结果表明,该法在确保多数类实例分类准确率的前提下,一定程度上也提高了少数类实例的分类性能。(2)针对传统影响函数定义时忽略训练实例自身分布特征和所有测试实例使用同一k值的问题,本文提出了一种改进的影响函数与k近邻结合的非均衡数据分类方法。该法在定义影响函数时除考虑了训练实例与测试实例间的距离关系,还对训练实例自身的类代表能力进行了计算。具体地,首先把训练实例到所在簇簇心的距离和训练实例自身的类内分布特征作为该实例的初始类代表度,其次通过引入置信度概念来分析其它类实例分布对该实例的影响,对处于不同位置上的实例进行有效的区分,准确地计算出训练实例对测试实例的真实影响。在为每个测试实例选择有效近邻时,本文充分利用测试实例自身的分布特征和近邻实例所在类的固有信息,对距离测试实例最近的k个实例添加了近邻选择过程,旨在为每个测试实例找到能够真正参与其类别决策的近邻实例。仿真结果表明,该法在非均衡数据分类问题上较传统方法取得了更好的分类性能。
其他文献
运动性疲劳会给健康人和有运动功能障碍的患者造成不同程度的损害,因此如何对运动性疲劳进行有效的检测吸引了大量的研究。基于脑电信号探讨脑区间的关系以检测运动性疲劳是目前研究的热点。然而大脑存在不同功能分区且有很多通道,从大量通道中选出与运动更相关的通道,不仅可以降低计算复杂度,还可以提高疲劳检测准确率。先前的研究都是基于单通道幅值变化识别运动相关通道,这些研究仅限于单通道,而忽略了通道间的相互作用。然
债券市场作为推动金融发展的重要组成部分,推动市场化利率的形成,在我国金融行业中扮演重要角色。机遇与风险并存,在我国债券市场蒸蒸日上之时,其中的风险也在加剧,比如信用风险、利率风险等在加快严峻化,给商业银行的债券投资业务的推动带来不利影响。那么如何进行有效的预知与判定,去规避其中的风险,让债券市场迎来快速发展,是现代市场必须重视并解决的一大难题。近年来,作为银行稳定收益和安全性高的债券投资和交易越来
税收风险管理既是一种理念又是一种方法,当前我国国地税合并,接连不断降低税负、加大税收优惠政策力度,如何促进税务部门发展,提升税务管理的水平,降低税收征收管控不到位导致的税收风险是当今亟待解决的重要问题。中国税务系统曾经有两次较大的税收制度改革,一是1994年的税务制度改革,二是在2016年进行的营业税到增值税的改革,而国税与地税的合并改革是税务系统的第三次重大改革,它是与中国目前政治经济改革相适应
基于光学相关域偏振测量技术的白光干涉仪具有高分辨率,长测量距离,大动态范围等优势,被广泛用来测量光学偏振器件内部的分布式偏振串扰。串扰会降低偏振光学测量系统的信噪比和测试精度。分布式偏振串扰可以直观地显示器件内部串扰点的位置和串扰系数的大小。因此,准确地测量分布式偏振串扰对器件性能评估和改良有着重大意义。实际测量时,受限于白光干涉测量原理与测试方法存在的若干非理想因素,如:高阶干涉现象、噪声、过量
近年来,随着支付宝、微信、京东等互联网巨头相继崛起,我国互联网金融的发展进入了新阶段,行业互联网的头部企业在稳固主业的同时纷纷将触角延伸至金融服务,将其平台打造成全
微通道系统具有良好的稳定性,传质速率高,可控性好,在制备粒径分布均一的微球和纳米粒方面具有优势。超大孔晶胶介质具有良好的生物相容性、稳定的物理化学性质,可在高流速下
高铁的快速发展,为人们出行提供了更加便利的条件,也为无线通信提供了新的应用和部署场景。高铁场景作为典型的高速场景之一,不仅具有典型高速场景所具备的显著多普勒效应和强时变性特点,还有高铁场景布网的一系列特征。第五代移动通信技术(5th-Generation,5G)商用的规模正在世界范围内逐渐扩大,5G新空口(New Radio,NR)采用的正交频分复用系统必将面临高铁场景带来的挑战。多普勒效应对子载
近几年,我国实施了“一带一路”战略,大多数中国企业提高了对于海外市场的重视,我国综合经济实力较强的企业纷纷顺应政府的政策,投资国外项目,并取得了一定的成绩。目前我国的电力市场基本处于饱和状态。因此,对于急需扩大市场的电力企业来说,投资海外市场是一个不错的选择。政府进一步加大对海外投资项目的支持,一方面给电站总承包企业来了很大的机遇,但同时对于他们来说也是一种挑战。为了将国际工程承包过程中可能发生的
随着汽车行业的不断发展,轻量化技术逐渐成为了未来汽车行业重要的发展方向之一而内高压成形工艺作为一项先进制造工艺凭借其成形件质量好、成形效率高、成形件质轻等优势,在汽车及其他众多领域得到了广泛的应用。但因其成形机理较复杂、工艺参难制定等原因,使得内高压成形工艺的应用存在着一定的难度。本文以某汽车副车架为研究对象,采用数值模拟与多目标优化再结合试验研究的方法,对该零件内高压成形过程行了深入研究,为后续
随着城镇化进程加快,土地用地需求增加,城中村在管理、环境等方面的问题日益突出,成为制约城市发展的瓶颈。从城市可持续发展视角,国家出台了多方面的城中村改造的相关政策,以此改善各地区的城市空间和村民的居住环境。在国家政策支持下,各地纷纷进行城中村改造,取得一定改造成果的同时也带来诸多问题,亟需解决。首先,梳理了平度市的改造历程、最新的改造政策,肯定了城中村改造政策的执行情况和取得的成效。依据国家和地区