【摘 要】
:
随机森林是机器学习领域中一种常用的分类算法,具有适用范围广且不易过拟合等优点.为了提高随机森林处理多分类问题的能力,提出一种基于空间变换的随机森林算法(space transformation based random forest algorithm,ST-RF).首先,给出一种考虑优先类别的线性判别分析方法(priority class based linear discriminant analysis,PCLDA),利用针对优先类别的投影矩阵对样本进行空间变换,以增强优先类别样本与其他类别样本的区
【机 构】
:
山西大学计算机与信息技术学院 太原 030006;山西大学计算机与信息技术学院 太原 030006;计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006;山西大学数学科学学院 太原
论文部分内容阅读
随机森林是机器学习领域中一种常用的分类算法,具有适用范围广且不易过拟合等优点.为了提高随机森林处理多分类问题的能力,提出一种基于空间变换的随机森林算法(space transformation based random forest algorithm,ST-RF).首先,给出一种考虑优先类别的线性判别分析方法(priority class based linear discriminant analysis,PCLDA),利用针对优先类别的投影矩阵对样本进行空间变换,以增强优先类别样本与其他类别样本的区分效果进而,将PCLDA方法引入随机森林构建过程中,在为每棵决策树随机选择一个优先类别保证随机森林多样性的基础上,利用PCLDA方法创建侧重于不同优先类别的决策树,以提高单棵决策树的分类准确性,从而实现集成模型整体分类性能的有效提升最后,在10个标准数据集上对ST-RF算法与7种典型随机森林算法进行比较分析,验证所提算法的有效性,并将基于PCLDA的空间变换策略应用到对比算法中,对改进前后的算法性能进行比较分析.实验结果表明:ST-RF算法在处理多分类问题方面具有明显优势,所提出的空间变换策略具有较强的普适性,可以显著提升原算法的分类性能.
其他文献
针对Android恶意软件检测存在特征引入过程主观性高、特征选择过程可解释性差、训练模型检测效果不具备时间稳定性的问题,提出了一种面向概念漂移的可解释性Android恶意软件检测方法InterDroid,该方法首先通过高质量的人工Android恶意软件分析报告引入权限、API包名、意图、Dalvik字节码4种特征.并通过自动化机器学习算法TPOT(tree-based tipeline optimization tool)获得InterDroid训练及对比算法,从而摒弃传统方法中繁复的模型选择与参数调整过
联邦学习(federated learning)由于参数服务器端只收集客户端模型而不接触客户端本地数据,从而更好地保护数据隐私然而其基础聚合算法FedAvg容易受到拜占庭客户端攻击.针对此问题,很多研究提出了不同聚合算法,但这些聚合算法存在防守能力不足、模型假设不贴合实际等问题.因此,提出一种新型的拜占庭鲁棒聚合算法.与现有聚合算法不同,该算法侧重于检测Softmax层的概率分布具体地,参数服务器在收集客户端模型之后,通过构造的矩阵去映射模型的更新部分来获取此模型的Softmax层概率分布,排除分布异常的
SDN是一种蓬勃发展的新型网络体系结构,复杂的网络业务流量组成对多样QoS的需求给SDN网络路由造成了巨大挑战。为了解决SDN的QoS优化问题,学术界与工业界在SDN诞生之初进行了深入研究,提出了很多建设性的解决方案。通过深入调研,介绍SDN的基本架构,汇总并对比主流量的SDN控制器;分析SDN控制器中集成的QoS相关模块和参数;分析并归纳目前比较有影响且具有创新性的QoS优化方案;提出目前SDN
从数据流中挖掘高效用项集是一项具有挑战性的任务,因为传入的数据必须在时间和存储内存约束下进行实时处理数据流挖掘通常会产生大量冗余的项集,为了减少这些无用的项集数量且保证无损压缩,需要挖掘闭合项集,它可以比全集高效用项集的集合小几个数量级.为了解决以上问题,提出一种基于滑动窗口模型的数据流闭合高效用项集挖掘(closed high utility itemsets mining over data stream based on sliding window model,CHUI_DS)算法.在 CHUI
计算命题公式的极小模型在人工智能推理系统中是一项必不可少的任务.然而,即使是正CNF(conjunctive normal form)公式,其极小模型的计算和验证都不是易处理的.当前,计算CNF公式极小模型的主要方法之一是将其转换为析取逻辑程序后用回答集程序(answer set programming,ASP)求解器计算其稳定模型/回答集.针对计算CNF公式的极小模型的问题,提出一种基于可满足性问题(satisfiability problem,SAT)求解器的计算极小模型的方法MMSAT;然后结合最近
针对基于似然和特征工程的调制识别方法存在需要人为提取特定特征和鲁棒性低等缺点,提出一种结合一维卷积神经网络和长短期记忆网络的深度学习模型,并将原始IQ信号转化为瞬时幅度和相位的调制信号数据,有效提高QAM16和QAM64之间区分度,从而提高10类数字和模拟信号的调制识别准确率。实验结果表明,在信噪比0 dB以上的平均准确率达到了93.21%,比现有方法准确率提高约3.4百分点,高信噪比下数字调制信
数据集中处理的云计算模式提供交互迅速、绿色高效的多样化应用服务面临新挑战.将云计算能力扩展到边缘设备,提出了边云协同计算框架;设计了基于任务预测的资源部署算法,在云服务中心通过二维时间序列对任务进行预测,结合分类聚合、延迟阈值判定等优化边缘服务器任务运行所需资源部署;提出了基于帕累托优化的任务调度算法,在边缘服务器分2个阶段进行帕累托渐进比较得到用户服务质量和系统服务效应2个目标曲线的相切点或任一相交点以优化任务调度.实验结果表明:结合基于任务预测的资源部署算法与基于帕累托优化的任务调度算法在提高平均用户
目前针对说话人识别的攻击需要对音频注入长时间的扰动,因此容易被机器或者管理人员发现提出了一种新颖的基于单“音频像素”扰动的针对说话人识别的隐蔽攻击.该攻击利用了差分进化算法不依赖于模型的黑盒特性和不依赖梯度信息的搜索模式,克服了已有攻击中扰动时长无法被约束的问题,实现了使用单“音频像素”扰动的有效攻击.特别地,设计了 一种基于音频段-音频点-扰动值多元组的候选点构造模式,针对音频数据的时序特性,解决了在攻击方案中差分进化算法的候选点难以被描述的问题攻击在LibriSpeech数据集上针对60个人的实验表明
文本立场检测是文本意见挖掘领域的基础性研究,旨在分析文本中对特定目标所表现的立场倾向.随着互联网的飞速发展,用户对于公共事件、消费产品等的讨论文本呈指数级增长,文本立场检测研究对产品营销、舆情决策等具有重要意义.从目标类型、文本粒度以及研究方法3个角度对文本立场检测研究工作展开综述.首先,从目标类型角度,围绕单目标、多目标以及跨目标立场检测3个方面梳理了文本立场检测的不同研究任务;从文本粒度角度,对比了句子级、篇章级以及辩论文本立场检测的不同研究场景和方法;从研究方法角度,介绍了基于传统机器学习、主题模型
联邦学习使用户在数据不出本地的情形下参与协作式的模型训练,降低了用户数据隐私泄露风险,广泛地应用于智慧金融、智慧医疗等领域.但联邦学习对后门攻击表现出固有的脆弱性,攻击者通过上传模型参数植入后门,一旦全局模型识别带有触发器的输入时,会按照攻击者指定的标签进行误分类.因此针对联邦学习提出了一种新型后门攻击方案Bac_GAN,通过结合生成式对抗网络技术将触发器以水印的形式植入干净样本,降低了触发器特征与干净样本特征之间的差异,提升了触发器的隐蔽性,并通过缩放后门模型,避免了参数聚合过程中后门贡献被抵消的问题,