基于自适应序列特征选择的决策树分类算法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:aweids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树由于其简单、准确和较强的可解释性而被广泛应用于不同领域。与其他现有的分类器类似,这些基于树的分类算法是为定长的向量数据开发的,并且在处理复杂数据(如序列)方面存在一定的局限性。为了解决离散序列的分类问题,目前主要采用的策略是基于两步过程的序列分类算法,然而这种方法高度依赖于特征生成过程,并且可能会遗漏一些对构建树至关重要的特征。为了解决这些问题,本文完成了如下两项工作:(1)提出了一种新的面向序列分类的决策树算法Seq DT,该算法以自顶向下的递归方式构建决策树:根节点和每个内部节点根据是否包含分裂特征将训练集分为两个不相交的子集,其中分裂特征是具有最高基尼指数变化值的子序列。本文将分裂特征的选择问题转化为最佳相关模式挖掘问题,利用分支定界法在所有子序列组成的集合中自动选择分裂特征;(2)为了进一步提高分类准确率,又提出了基于Seq DT的随机森林模型。该模型是一种基于树的集成方法,在构建每棵决策树时使用有放回的采样方法得到子训练集并且创建每个节点时通过随机选择子序列的最大长度创建特征子集。在十四个真实数据集上以分类准确率和G-mean作为评价指标,得到的实验结论为:首先,Seq DT可以达到比现有的序列分类算法更高的平均分类准确率和G-mean;其次,Seq DT使用的模式数目和运行时间远小于两种和它密切相关的对比算法;另外,通过分析一些关键参数对算法性能的影响可以发现,Seq DT的算法稳定性较强;最后,基于Seq DT的随机森林模型可以得到比Seq DT以及其他算法更高的分类准确率。同时,随机森林的分类准确率、训练时间以及验证时间都会随着决策树数目的增加而增加,在实际应用中,决策树的数量取决于分类准确率和时间之间的权衡。
其他文献
由于物联网迅猛发展以及大规模智能终端接入,静态边缘节点无法高效解决资源不足的设备与密集型任务之间的冲突问题。无人机充当移动基站可在通信设施不足地区或地震等自然灾害情况下快速通信和处理设备任务。然而,基于无人机基站的卸载研究大多忽略历史数据的重要价值和终端设备产生任务的规律性。此外,现有研究很少考虑大规模任务卸载,未考虑随着终端设备产生任务的改变会导致所需无人机数量的改变。本文创建多无人机集群辅助移
学位
近年来,随着边缘计算的应用普及,卸载策略需要适应日渐复杂的通信场景,同时,任务分割与共享往往只发生在边缘服务器和用户间,大量用户的空余计算资源没有得到有效利用。因此,如何建立适应5G通信场景的卸载策略与怎样完善任务共享卸载计算方案成为了边缘计算中的两个亟待解决的问题。首先,以往卸载策略研究大多结合传统的通信方式进行独立讨论,缺乏对计算资源分配过程及最终结果反馈。因此,传统方案在5G时代缺乏应用性与
学位
软件已经成为人们日常生活中不可或缺的一部分,因此保证软件的安全性是研究领域中热门话题。软件的可重复构建就是其中的一个研究方向,软件的可重复构建在确认软件的源代码和软件的二进制之间的对应关系中承担着重要的作用。但是在修复软件不可重复构建故障的工作中存在着一系列的挑战。在这些挑战中本文将主要关心以下两方面的挑战:(1)故障定位粒度不够精细;(2)修复补丁手动生成。为了应对这些挑战,本文提出了一种新的研
学位
Agent理论和技术作为分布式人工智能的重要研究方向之一,近些年被应用到计算机支持的各种应用中。Agent理论的核心研究内容是多agent系统,它为内部独立的agent提供了一种称为联盟的协作模式,这种模式让agent可以自发地形成联盟并分配一定资源去共同完成一项任务,从而提高任务完成效率和个人收益。作为多agent系统中亟待解决的关键问题,联盟结构生成(Coalition Structure G
学位
区块链去中心化导致了交易隐私数据泄露,引发信息安全问题。零知识范围证明,旨在机密验证交易数据范围区间,处理链上隐私保护和交易机密监管问题。而区块链交易吞吐量的倍增,提高了区块链对范围证明方案的性能需求。现有范围证明的证据生成及验证性能仍不如预期,且数据适配性和可聚合性较差,无法处理浮点数范围问题,也无法实现计算成本恒定的聚合证明,严重限制了链上机密交易性能。针对上述问题,本文主要工作内容如下:(1
学位
由于区块链的共识机制范围是全体节点,基于区块链的加密货币的可扩展性存在严重的瓶颈。支付通道网络作为一种有前途的解决方案被提出。支付通道网络将区块链上的交易转移到链下的支付通道上进行,大大提高了交易速度。支付通道网络的路由算法对于优化支付通道网络的成功率、交易费用以及交易延迟至关重要。支付通道网络上的交易会在交易路径的任何支付通道余额不足的情况下失败。因此,为每个交易选择资金充足的支付通道作为交易路
学位
小样本学习针对的是只有少量有标签样本的任务。由于样本信息较少,使得小样本学习成为深度学习应用中的一个挑战。本文的目的就是希望通过深度学习模型和度量学习的思想,在少量样本中提取更有类别代表性的特征,来提高小样本分类任务的准确性。具体地讲,度量学习方法旨在学习样本间的度量关系。在小样本学习图像分类问题中,度量学习的思想体现在,分类过程使用相似性度量的方式来判断两个样本是否属于同一个类别,而度量的对象就
学位
在分布式网络中,各节点之间进行大文件的传输是现在生产和生活中经常出现的场景,由于物理条件的限制,单个节点不可能同时进行所有文件的传输。在这种情况下,安排文件在何时开始传输从而使得收益最大成了一个非常值得研究的问题。文件传输调度问题正是在这种背景下产生的。本文关注的是最基本的带有端口约束的文件传输调度问题——给定节点以及需要在节点间传输的文件,其中节点之间是全连通的,不允许文件经中间节点转发,并且文
学位
为保证云上海量数据的安全性与可用性,用户在上传数据前通常会借助可搜索加密技术对其进行预处理,该技术使用特殊加密方法保留了密文数据的部分检索功能。然而,随着用户应用场景的拓展和推广,现有方案已不能满足用户的新需求,如对密文数据的更新以及处理更复杂的查询请求。功能的增加意味着更多样的数据操作,但这也会为安全性带来新风险,如何设计出功能丰富并且更安全的可搜索加密方案是一个新的挑战。本文首先给出了一个支持
学位
社区挖掘是数据挖掘和网络科学中最重要的问题之一。由于目前对于社区没有一个统一的定义,在过去的几十年里,研究人员从不同的角度提出了很多的社区挖掘算法。然而,这些算法均不能直接评估带权网络中单个社区的统计显著性。本文从假设检验的角度提出了两个方法:一个是基于Logrank检验的带权网络中单个社区真实性的评估算法;另一个是带权网络中单个社区解析p值的计算方法以及相应的社区挖掘算法。鉴于实际网络中的边权重
学位