基于集成学习和深度森林的僵尸企业识别研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:cute_xiaoxiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,僵尸企业是我国经济发展中的巨大隐患。为此我国各地实施了一系列处置僵尸企业的决策,其中首要任务是对僵尸企业识别和分类。目前,已有的大量研究是在传统僵尸企业识别方法(如FN-CHK)上进行改进,但普遍存在如下问题:数据分析不全面,基于单一特征进行分析,识别过程中掺杂过多主观性。鉴于此,本文结合近年来热门的集成学习分类模型对企业数据进行自动和全面的挖掘分析,并设计僵尸企业识别方案,进而实现僵尸企业识别和分类。本论文的主要工作和创新点如下:首先,本文针对搜集的企业数据集进行数据预处理,通过分析数据的特征类型及特征分布情况,制定有效的填充方案,其中包括均值、众数等填充方式。然后对类别特征进行独热编码转换,给出了编码方案解释。最后通过特征合成的方法对数据进行特征增强,以此提高数据的特征维度,为后续的僵尸企业识别研究和建模做准备。接着,本文设计了基于特征选择和集成学习的僵尸企业识别方法。鉴于对僵尸企业的数据集学习一般为不平衡学习,采用交叉验证优化的递归特征消除法(RFECV)提取区分度高的特征子集,改善不平衡数据的影响。再通过比较集成学习中几种典型分类模型的分类性能,制定不同的融合方案。最后使用加权融合机制分别对不同融合方案中的模型进行融合处理,并引入遗传算法优化权重分配,以构建自适应加权融合的分类模型,同时选出性能最优的融合模型。实验结果表明,该方案选出的融合模型对比其他分类模型准确度更高。最后,本文设计了基于改进深度森林的僵尸企业识别方法。对于僵尸企业的不平衡数据导致深度森林分类不准确,以及深度森林自身存在时间复杂度高的问题,本文对深度森林进行了改进。首先,通过基尼系数计算提取最优特征子集,以取代原始特征集去训练完全随机森林,由此降低深度森林时间复杂度。然后结合置信度机制和权重策略提出一种新的权重计算方法,以改进不平衡数据集在级联森林中存在的负面影响问题,进一步提高僵尸企业识别准确度。实验结果表明,本文提出的改进深度森林模型在时间复杂度和准确度上都有不错的性能优势。
其他文献
机械臂广泛应用于工业生产和社会生活的各个领域,传统的机械臂控制方法依赖于精准的环境模型,难以适应复杂的、未知的非结构化环境。近年来,随着人工智能技术的发展,结合深度强化学习的机器人控制技术有了长足的进步。深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)算法作为深度强化学习的经典算法,适用于连续控制问题,广泛应用于机械臂控制研究,但由于DDPG
学位
随着攻击技术不断发展,防御信息存储与传输所面临的各种威胁成为当今安全芯片领域的研究热点。物理不可克隆函数(Physical Unclonable Function,PUF)利用器件制造过程中固有的工艺偏差产生具有随机性与唯一性的数字指纹。攻击者难以通过常规攻击方式破解、克隆其中加密数据,可极大提高芯片的安全性。随着物联网技术不断更新,器件集成度不断提高,设备对能耗要求越来越高,极大限制PUF电路的
学位
面积和功耗限制了芯片性能的进一步提升,底层硬件的运算能力也不能满足日益增长的计算需求。与此同时诸多容错应用,如多媒体处理、数据挖掘和图像识别,也被越来越广泛的使用。在这样的背景下,人们提出了新的设计范式——近似计算。近似计算牺牲精度来换取电路性能的提升,可以为容错应用设计高效节能的系统。近似计算是指计算结果与正确结果之间存在偏差。近似计算技术应用到逻辑级优化电路的核心思想是人为引入一些错误输出来简
学位
随着人工智能时代的来临,对于芯片算力和功耗的要求日益提高。目前单片的晶体管密度已经达到0.9亿/mm~2,例如,英特尔基于IVY Bridge的四核芯片大约有十二亿个晶体管。设计这样异常庞大且复杂的电路无法依靠人力实现,必须使用自动化方式。电子设计自动化(EDA)是进行芯片设计所必不可少的工具,而标准单元库是使用EDA工具进行芯片设计的核心。当下主流的集成电路采用FinFET器件,目前FinFET
学位
随着“制造强国”战略的提出以及5G技术的广泛应用,与之相关的物联网技术得到了快速发展。然而,由于受到了电池寿命及更换电池困难等因素的影响,如何实现物联网各类传感节点的自供电已逐渐成为工业界和学术界广泛关注的热点话题。事实上,日常环境中存在丰富的射频能量信号源,大部分射频能量的发射具有全向性和全时段特性,会造成大量能量的浪费。因此,本文设计了一种基于射频能量收集的低功耗传感节点,可为传感节点的自供电
学位
SLAM(Simultaneous Localization And Mapping),即同步定位与地图构建,是机器人在一个完全未知的环境中解决定位、地图构建和导航的关键技术。SLAM系统通常由视觉里程计、闭环检测、后端非线性优化和地图构建等环节组成,其中闭环检测部分通过判断图像之间的相似性来解决位姿估计随时间的漂移问题,在SLAM系统中起到了重要的作用。传统的闭环检测方法大多采用人工设计的图像特
学位
深度学习技术已经在很多领域得到了广泛应用。与此同时,深度学习的安全性问题也随之而来,尤其是对抗样本问题。研究表明,目前大多数的深度学习模型容易遭受对抗样本的攻击。攻击者可以通过向正常样本添加细微的扰动,来生成高伪装性的对抗样本。深度学习技术的使用使语音识别技术更加高效与准确,帮助语音识别系统更好的理解用户,使语音识别技术真正走向了实用化。但对抗样本攻击的安全性问题,在目前主流的语音识别系统中仍然存
学位
随着当前信息时代的发展,神经网络以及机器视觉被开发的功能越来越多,并且在许多领域已经可以代替人类进行高精度以及高强度的工作。同时,随着社会经济的不断发展,越来越多的人选择长时间的坐姿办公模式,虽然长时间的坐姿办公显得轻松自在,但一系列日益严重的坐姿引起的疾患问题也随之而来,比如肌肉骨骼疾患、近视等。头部以及肩部姿态可以很大程度上反映人体坐姿状态。例如坐姿状态下的颈椎、用眼、手部、脊椎等情况。因此,
学位
随着车辆工业和世界经济的快速发展,汽车的数量不断增加,各种交通事故也越来越多。据统计,约五分之一的事故是由驾驶员在驾驶车辆中存在接电话、与乘客说话等分心驾驶行为导致的。交通安全问题已经成为全球关注的焦点,如何快速、准确地检测出驾驶员的分心行为,避免分心驾驶引发的交通事故是研究人员面临的一大难题。近年来,卷积神经网络(Convolutional Neural Network,CNN)凭借其突出的特征
学位
传统索引方式一般是一种通用的数据结构,不特别针对数据分布和特征设计或优化其索引方式,随着数据空间维度或数据量的增加,可能会导致存储消耗大且查询效率急剧下降。相较于传统的索引结构,学习型索引可通过学习数据的分布与特征来优化索引,进而可提升索引的查询效率和空间效率。由于多维数据一般无法直接给出确定顺序,当对查询数据有顺序要求时,则无法直接使用学习型模型学习数据的分布,因此学习型多维索引根据对查询数据是
学位