【摘 要】
:
特征选择已经被广泛地研究和使用在机器学习和模式识别领域,因为它能够减少问题的复杂度,同时提升学习算法的预测精度。但是,传统的特征选择算法依据特征和类别变量之间的相关关系选择相关特征、去除无关特征,从而没有试图学习它们之间的因果特征。近些年,基于马尔科夫毯的特征选择已经吸引了越来越多人的关注,因为它比传统的特征选择算法具有更好的鲁棒性和可解释性。基于马尔科夫毯的特征选择旨在发现类别变量的马尔科夫毯(
【基金项目】
:
科技创新2030-“新一代人工智能”重大项目课题:常识知识学习与因果分析,NO.2020AAA0106100; 国家自然科学基金面上项目:面向多源高维数据的局部因果关系挖掘研究,NO.61876206; 智能信息处理山西省重点实验室开放课题:高维数据中的因果推断问题研究,NO.CICIP2020003;
论文部分内容阅读
特征选择已经被广泛地研究和使用在机器学习和模式识别领域,因为它能够减少问题的复杂度,同时提升学习算法的预测精度。但是,传统的特征选择算法依据特征和类别变量之间的相关关系选择相关特征、去除无关特征,从而没有试图学习它们之间的因果特征。近些年,基于马尔科夫毯的特征选择已经吸引了越来越多人的关注,因为它比传统的特征选择算法具有更好的鲁棒性和可解释性。基于马尔科夫毯的特征选择旨在发现类别变量的马尔科夫毯(Markov blanket,MB)。类别变量的MB蕴含了类别变量与特征之间的可能因果关系,且在理论上,类别变量的MB已经被证明是特征选择的最优特征子集。本文开展基于马尔科夫毯的特征选择算法的相关研究,主要取得了如下创新性成果:(1)针对分治类MB学习方法存在条件独立性(Conditional Independence,CI)测试较多和计算量较大的问题,提出一种高效的同步类MB学习算法(ESMB)去解决上述问题。该算法采用同步类MB学习算法的思想提出了一种双向收敛策略同时降低条件集(当前选择的候选MB特征)和候选特征集(当前选择的候选MB特征以外的特征)的大小,尽可能地减少不可靠的CI测试数目,从而提升了算法的精度和计算效率。在忠实性假设下,我们从理论上证明了ESMB的正确性和完整性。此外,实验结果也说明了我们提出的方法比已有特征选择算法取得了更好的分类精度。(2)针对现有的同步类MB学习方法由于条件集过大而产生许多不可靠CI测试而导致同步类MB学习方法准确性较低的问题,我们提出了一种具有错误感知能力的MB学习算法(EAMB)去找回丢失的类别变量的真实MB特征。首先,为了高效地识别由于不可靠CI测试而丢失的MB特征,EAMB提出了一种选择性策略从高维被遗弃的特征集中学习与类别变量有较高依赖度的特征的MB。然后,我们提出一种放宽的AND规则(R-AND)找回被错误删除的类别变量的MB特征。在本文中,我们分析了EAMB算法的时间复杂度并且通过一系列的实验验证了EAMB的高效性和准确性。
其他文献
因果关系是一类具有明确导向的关系类型,尤其在健康领域具有更多的实际应用价值,比如分析疾病的致病因素等。目前,很多生物医学文献都包含因果关系知识,这部分因果关系值得被挖掘。为此,本文设计开发了一个面向健康领域的因果关系图构建系统,提取相关生物医学文献中的因果关系,并整合不同数据源,构建因果关系图,旨在帮助健康领域的从业人员决策判断,归因分析等。本文工作分为以下两部分:(1)提出了基于循环神经网络的因
阵列天线方向图综合是阵列信号处理领域的重要研究方向之一,具有重要应用意义。其主要目的在于确定阵列天线的激励系数、阵元数目和位置等参数,使阵列天线的辐射特性满足期望的指标要求。然而,在很多实际应用场景下,为了节约成本简化阵列馈电网络设计复杂度,希望通过唯相位方向图综合的方式实现期望辐射特性,这种方法只使用移相器实现波束控制,能够实现阵列馈电网络的一致性。本文主要研究大型阵列天线的唯相位方向图综合的相
作为车辆的关键标志,车标不易被篡改,对车辆信息的提取有着重要的辅助作用。传统基于手工描述子的车标检测算法存在精度低、速度慢等问题,而基于深度学习的检测算法则难以平衡速度和精度。本文基于卷积神经网络(convolutional neural network,CNN)对车标检测进行研究,在现有目标检测算法的基础上,进行了改进和优化,提出了两种车标检测算法:基于YOLOv3的快速车标检测算法YVLDet
旋转机械是现代工业系统中最为重要的组成部分,随着大数据和人工智能等先进技术的发展,深度学习已经成为智能故障诊断领域的热门话题。然而在实际工况下,智能故障诊断方法的研究过程中往往会出现的以下两个问题:(1)标签数据不足,导致模型无法收敛。(2)不同工况,不同类别空间的故障诊断方法难以通用。因此,如何在少量样本下完成故障诊断,如何实现训练数据和测试数据不同工况下的高精度故障诊断以及跨部件的智能故障诊断
工业控制系统(Industrial Control System,ICS)测试床仿真模拟工业生产过程,广泛用于生产控制优化、计划与资源优化、人员培训、安全评估与安全测试研究等。现有包含实物的实物复制测试床、半实物测试床搭建成本较高,且测试床规模远不及实际系统的规模,导致基于测试床的相关研究具有一定的局限性;基于软件联合的纯软件仿真类测试床,不便于开展网络攻防等交互性要求较高的相关研究与测试。针对以
随着科技的迅速发展,实际应用领域涌现出大量流数据,这些数据不仅具有海量、快速、含多个标签与特征高维的特点,且其数据分布会随时间动态变化引起概念漂移等问题。因而如何在多标签流数据环境下快速挖掘有效信息,成为数据流分类的重要研究任务之一。本文旨在针对概念漂移和流特征的多标记流数据分类问题开展研究,主要研究工作包括:(1)针对多标签流数据的概念漂移问题,提出一种基于核极限学习机的数据流集成分类方法。首先
伴随着大数据时代的来临,数据获取的方式和途径较以往更加便捷,大量的高维数据出现在各个应用领域,如人脸识别等。然而,这些高维数据会大大增加计算量,同时其冗余特征也会影响数据分析的结果,很多应用场合必须进行降维。因此,高效的数据降维方法在实际应用中具有重要意义。近年来,图模型被广泛地用于数据降维研究工作中,图嵌入方法作为其重要的技术手段引起了很大的关注。以图判别嵌入为代表的传统图嵌入方法使用k近邻去选
隐写是一种基于信息隐藏的隐蔽通信技术或隐蔽存储方法,通过难以感知的方法将秘密信息隐藏在可以公开的载体中。在隐写与隐写分析的长期对抗发展过程中,隐写研究者提出了丰富的图像隐写思路与方法。无嵌入图像隐写算法不存在被修改的载体图像,虽然理论上具有很高的安全性,但是普遍存在图像特性单一和生成图像质量差的问题。嵌入式图像隐写算法通过修改载体图像的方法进行秘密信息写入,因此容易留下修改痕迹而受到隐写分析模型的
随着互联网的不断发展,视频网站拥有巨大的用户访问数量能够给服务提供商带来可观的收益,向用户推荐流行度尽可能高的视频可以吸引更多用户的关注;同时为了缓解核心网络的流量负载,降低用户获取视频的时延,制定以视频流行度为缓存替换策略的算法可以增加缓存的命中率,提升用户的服务体验质量。因此,视频流行度的预测问题成为了一个急需解决的问题。本文针对传统的视频流行度预测算法在中长期预测中存在预测精度低、自适应性弱
近几年来,卷积神经网络在计算机视觉,自然语言处理和语音识别等领域上取得了突破性的进展。尽管卷积神经网络具备强大的特征表达能力,但模型的过参数化和高计算复杂度使其在训练和推理过程中消耗大量硬件资源,让模型部署在资源受限的嵌入式设备上变得异常困难。因此,研究如何在不降低网络精度的前提下压缩神经网络模型,对于深度学习技术的普及具有重要意义。本文在现有压缩算法的基础上,对其进行优化改进并完成了以下工作:(