基于AD-tree的因果特征选择算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:zwj306041732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从上世纪60年代起,特征选择作为一种降低特征数量、去除冗余特征和噪声数据的降维技术,已被广泛地应用于机器学习和数据挖掘的各个领域。传统的特征选择方法通过计算特征与类别变量之间的相关性进行特征选择,但是传统的特征选择方法忽略了它们之间的因果关系。因果特征选择方法通过学习类别变量的局部贝叶斯网络(Bayesian network,BN)结构,即马尔科夫边界(Markov boundary,MB),发现类别变量的局部因果关系,使算法更具可解释性和鲁棒性。同时,在一定假设条件下,类别变量的MB(即特征子集)在贝叶斯网络中是唯一的,且已被证明是特征选择的理论最优解,可以很好地适用于分类任务。因此,近年来,因果特征选择方法已经引起了越来越多学者的关注和研究。本文以因果特征选择为核心研究内容,主要研究工作如下:(1)针对现有的因果特征选择算法在大样本上进行MB学习时,存在的内存开销较大和条件独立性(Conditional Independence,CI)测试计算成本过高的问题,本文提出了一种基于静态AD-tree的因果特征选择算法(BDMB)。该算法首先使用AD-tree结构在相对固定的内存开销且只需扫描一遍数据下,以统计信息的形式将数据完整地保存下来;然后,将AD-tree结构与列联表相连接,使得MB学习过程中的CI测试更加便捷与高效,同时我们给出了从树结构中获取列联表的Make CT算法。本文分析了算法的复杂度并进行了算法追踪,最后,在基准数据集和真实数据上验证了BDMB的有效性。(2)针对现有的因果特征选择算法都集中在静态数据上,忽略了流数据的情况,本文提出了一种基于动态AD-tree的因果特征选择算法(SDMB)。该算法在每一个数据块到来时,通过更新已有的AD-tree结构将新的数据信息汇总起来,做到了在一定的内存下保存不断增加的数据,并在此基础上进行MB学习。在学习过程中,首先以原有的MB集合为初始特征子集,然后每向其中添加一个新的特征时,就进行一次旧的特征的移除,直到学习出正确的特征子集;同时,树结构与列联表的结合,同样加速了算法中的CI计算,提高了算法效率。本文分析了算法的复杂度并进行了算法追踪,最后,在基准数据集和真实数据集上验证了SDMB在流数据上进行MB学习的有效性和准确性。
其他文献
自工业机器人问世以来,工业生产格局发生了很大变化。随着工业场景的复杂化以及任务的多样性,传统的六自由度工业机器人已不能完全满足需求。相比于传统六自由度机械臂,带有冗余关节设计的双臂七自由度机器人具有较好的容错性、柔顺性和避障能力,也提升了机械臂的工作效率。双臂协作也使机器人的作业能力得到巨大提升,双臂机器人的协作控制成为一个重要内容。机器人应用开发涉及到底层的数值计算、上层应用开发以及机器人位置控
我国应急管理体系建设时间尚短,应急管理基础支撑技术发展还比较薄弱,防范化解重大风险、高效应对重特大自然灾害仍然面临巨大的挑战。以“大智移云”为特征的新一代信息技术的快速发展,给应急管理的信息化、智能化和科学化提供了新的机遇和挑战。为此,应急管理部在《应急管理信息化发展战略规划框架(2018-2022年)》中明确提出,要利用大数据、人工智能、机器学习等新一代信息技术提高我国重特大自然灾害风险感知、监
拉曼光谱以其独特的分子光谱特性常被用于医疗、环保、安防、质检等多个领域。随着激光技术和制造业技术的发展,拉曼光谱技术越来越成熟,以该技术为基础的光谱仪也越来越多样化。为了满足户外实时检测、高温高压等特殊环境下的操作需求,手持式拉曼光谱仪应运而生。然而,目前已有的手持式拉曼光谱仪多存在有效信号微弱、应用范围窄、产品价格昂贵等不足,影响用户使用体验,因此本文意在研制一款成本较低、性能优良的高通量手持式
多智能体协作一直是人工智能的研究热点,有助于解决人类社会的许多问题。由于近些年来深度强化学习展现出的惊人决策能力,利用其解决多智能体协作问题成为热门,并诞生了多智能体深度强化学习这一研究方向。值分解是多智能体深度强化学习的主流方法,可以在环境平稳性和智能体拓展性之间取得平衡。但现有的一些值分解式方法没有充分利用历史轨迹进行学习,也忽视了智能体策略网络的重要性。因此,本文针对基于多智能体值分解深度强
人类视觉系统所拥有的一项非凡能力是:仅通过单个视图推理出物体的三维形状。即使在缺乏立体视觉或运动的几何提示情况下,人类视觉系统也能够推断出详细的表面或完整的隐藏细节。因此,理解图像的三维结构是许多计算机视觉应用的关键,三维图像比二维多出一维的信息,更能反映物体的细节纹理和空间位置信息,使得模型更加真实合理。在计算机视觉领域中,基于单视图的物体三维重建是一个长期存在且具有挑战性的研究问题,科研人员往
随着科学技术的发展和人工成本的不断增加,能够实现自动化装配、移载、分拣等功能的AGV(Automated Guided Vehicle)的发展和应用越来越受到行业的重视。路径跟踪控制技术作为AGV技术中重要的一环,其控制精度直接影响着整体任务的执行,与此同时,随着工作任务越来越复杂,对AGV的跟踪控制精度的要求也越来越高。但是,在AGV进行路径跟踪任务的过程中易受负载、外部干扰、系统参数摄动等干扰
高光谱图像分类是高光谱图像研究的一个重要分支。已经有很多研究人员提出了高精度的高光谱分类网络。但是这些网络需要占用相当多的处理资源和处理时间,限制了深度学习技术以及高光谱数据的应用和推广。轻量级网络在最近几年成为深度学习领域的一个新热点,然而现有的轻量级网络多为普通RGB图像处理所设计,并不适合处理高光谱图像。针对高光谱图像分类问题的轻量级网络进行研究,本文的主要工作有如下三个方面:1)本文从GP
大气偏振模式作为地球的自然属性,其中蕴含丰富的光学特性分布信息,并且大气偏振模式在天空中稳定存在,即使在复杂大气环境因素影响下,大气偏振模式仍然呈现出一系列的时空连续分布规律,因此其在自主导航、目标探测等领域具有广阔的应用前景。为了解决在大气偏振模式实测实验中有时会出现数据缺失或数据集断档的情况,本文设计一种基于序列信息的局部大气偏振模式信息重构网络,并通过仿真与实测偏振数据进行实验验证本文所提方
强化学习是人工智能的重要分支之一,近年来受到了广泛的关注与研究。强化学习以奖励为唯一的指导,利用不断试错的方式,使得智能体在与环境的频繁交互中逐渐学习到能够获得最大累计期望奖励的最优策略。但当奖励分布稀疏或奖励分配不均时,便会影响智能体的训练,造成智能体收敛速度缓慢和训练不足等问题,即稀疏奖励问题和信用分配问题。本文主要贡献如下:(1)针对稀疏奖励问题,提出了一种基于情感的异构多智能体强化学习奖励
室内人体定位与动作识别一直以来都是当代人工智能领域研究的热点之一,针对这两方面已有的研究成果非常多,但是从成本、实现复杂度和人体隐私等方面去考虑,现有的一些人体目标定位和动作识别算法存在使用的仪器昂贵、环境要求太高和容易泄露生活隐私等问题。本文针对上面的问题提出了利用人体运动时热释电红外传感器输出的模拟信号来对人体进行定位和动作识别。首先热释电红外传感器成本和功耗都低,其次它采集的信号是人体红外热