因果特征选择与结构学习算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:vecent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的三十年中,特征选择作为一种维数约减技术,一直是机器学习领域的研究热点之一。传统的特征选择算法由于仅基于特征与类属性之间相关性,可能导致预测分类模型缺乏可解释性、可操作性和鲁棒性。因果特征选择是发现类属性的贝叶斯网络(Bayesian network,BN)的子结构,即马尔科夫毯(Markov blanket,MB),该MB由类属性的父母(直接原因),孩子(直接结果)和配偶(直接结果的其他直接原因)组成,从而明确地推导出局部类属性和特征之间的因果关系。因此,因果特征选择作为一种新兴的特征选择方法,通过识别潜在因果特征以构建可解释、可操作且健壮的预测分类模型,已引起机器学习和因果发现领域的广泛关注。除了用作特征选择以进行分类之外,作为BN的子结构,因果特征选择在学习感兴趣变量的局部BN结构中起着至关重要的作用。同时,如果能够识别数据集中所有变量的MB,则这些MB可以用作约束条件以减少搜索空间,从而实现高效的局部到全局BN结构学习。本文以因果特征选择为核心,开展了分类和因果结构学习的相关研究,主要取得了如下创新性成果:(1)针对因果特征选择分类问题,同步类因果特征选择方法将当前选择的所有特征作为条件集来牺牲精度以提高效率,而分治类因果特征选择方法尽管穷举了所选特征的子集以提高精度,但是从父子节点(parents and children,PC)的PC中寻找配偶牺牲了效率。因此,本文提出了新的因果特征选择算法来平衡现有算法的效率和准确性,一种平衡的MB发现算法BAMB(BAlanced MB)。BAMB将找候选PC和配偶,以及删除假PC和配偶统一到一个循环内,从而尽可能早的删除错误PC和配偶,以使条件集的长度始终保持在最小的范围来平衡效率和准确率。本文从理论上证明了算法的健全性和完整性,并分析了现有算法的复杂度。在标准BN数据集和真实数据集上进行的大量实验验证了BAMB的有效性。(2)针对局部因果结构学习问题,由于现有局部因果结构学习算法在发现PC时,需要耗费大量时间来穷举当前选择的所有特征的子集作为条件集,本文提出了基于特征选择的局部因果结构学习算法LCS-FS(Local Causal Structure learning by Feature Selection)来提高现有算法的效率。具体来说,LCS-FS使用无需条件集的特征选择方法寻找PC,并通过在PC中寻找割集的方式来帮助寻找V结构,进而对目标节点的父亲节点和孩子节点进行区分。在节点数从35到801的5个标准BN数据集上的实验验证了LCS-FS的有效性。(3)针对任意部分的因果结构学习问题,全局因果结构学习算法需要找到整个BN结构来确定部分BN结构,而局部因果结构学习算法会遗漏一些V结构,导致得到的部分BN结构出现错误的定向边。因此,本文提出了高效且准确的任意部分的因果结构学习算法,称为APSL(Any Part of BN Structure Learning)。APSL将MB中的V结构分为collider V结构和non-collider V结构,并在每次迭代中递归的寻找collider V结构和non-collider V结构,直到感兴趣部分的BN结构完全定向。为提高APSL的效率,本文进一步设计了基于特征选择的APSL算法,APSL-FS。在一系列的标准BN数据集上的实验上验证了APSL和APSL-FS的有效性。
其他文献
人们身处在跨模态环境,人工智能要更好地理解人们所处的环境,则需要具备解析跨模态信息的能力。通过模态学习搭建能处理和连接跨模态信息的模型。如在内容理解领域,需要分析文本、图片、视频、语音等跨模态数据对应的不同级别特征和其他辅助描述特征等。因此跨模态媒体分析是目前人工智能研究中重要的课题之一,它为不同表现形式(模态)数据间提供了沟通的桥梁。根据跨模态数据的不同表现形式,研究者将跨模态媒体分析任务细分为
表示学习又称表征学习(Representation learning),是利用机器学习或数据挖掘算法获取实体或者关系的向量化表达。表示学习的目标是,通过机器学习将研究对象的语义信息表示为稠密低维实值向量。机器学习和神经网络领域顶尖专家Yoshua Bengio教授对表示学习的重要性进行了阐述:“机器学习算法的成功通常取决于数据表示,这是因为不同的数据表示可以或多或少的包含和隐藏数据变化背后的可解释
让计算机精确地了解人的情感状态是实现人机交互的前提。生理信号是人体器官相互作用产生的生物电信号,能够自发地反映出人类内心的真实情感。在不同环境下提升生理信号的情感识别性能是许多科研人员一直追求的目标,根据个体、激励素材和应用场景的不同,多模态生理信号样本的分布差异性会严重影响到生理情感识别的效果以及模型的泛化能力。鉴于此,本文在不同实施性能的验证方案下分别基于传统生理信号识别方法和神经网络框架对情
叶片衰老是叶生命周期中的最后一个重要阶段。它不是一个简单的退化过程,而是一个受到高度调控的生物学过程,旨在将有价值的资源回收并重新分配给活跃生长的器官。叶片衰老的发生与进程受到严格的动态控制,涉及调节因子之间复杂的协同和拮抗作用。本研究在番茄中鉴定了一个新型的叶片衰老调控因子Sl BSD1。亚细胞定位和转录激活试验表明Sl BSD1定位在细胞核中并具有转录激活活性。Sl BSD1基因的下调表达导致
随着互联网的飞速发展,每天都会产生大量社会多媒体数据。这些社会多媒体数据中包含大量的关系信息,它们被广泛用于推荐系统、专家发现等重要的应用以挖掘有价值的信息。网络(数据结构)被广泛用于建模社会多媒体数据中的关系信息,网络结构的社会多媒体数据又被称为社会多媒体网络。近几年来,随着深度学习等机器学习技术的发展,涌现出大量面向社会多媒体网络的应用。实现这些应用所需要解决的基础问题之一,是如何有效地学习网
精度是高端数控机床重要的性能指标。热误差是由于机床加工过程中,零部件热变形引起的刀具和工件之间的额外偏移,占据数控机床总误差的40%~70%,严重影响机床加工精度。热误差补偿技术是目前减小机床热误差最为有效的途径,需要首先对机床多点温度和热误差进行同步测量,然后根据测量数据,选出对热误差影响占主要权重的点,称为温度敏感点,进而建立温度敏感点和热误差之间的数学模型。利用模型,通过测量机床温度预测热误
电致变色材料可以通过施加一个相对较低的偏压(通常<5 V),在可见光和红外区域实现透过、吸收与反射率的动态可调,从而保证太阳能的高效利用并且可以应用于智能窗、电子纸等相关节能设备。电致变色材料的记忆效应与不发光特性,也使其有望应用于下一代零消耗人眼友好型图像显示设备。与此同时,电致变色反应过程中发生的离子嵌入/脱出也会产生赝电容行为使得材料具备储能特性,这使得我们可以通过制备电致变色超级电容器双功
模式匹配问题在大数据时代下的信息检索、文本挖掘、网络安全以及生物信息学等很多领域都具有重要的应用价值,尤其是带有通配符的多模式近似匹配,相比正则表达式、单模式匹配和精确模式匹配,可以解决更加复杂的模式匹配问题,如从海量异构数据的碎片化知识中提取有价值的信息等。因此,根据带有通配符的模式特性,借助后缀树、后缀数组等高效的数据结构及其相应特性,对带有通配符的多模式近似匹配问题研究具有重要的研究意义和应
1971年我高中毕业后开始在山西岢岚县商业局工作。工作一年多,县武装部开始征兵,我积极响应国家号召应征入伍,成为内蒙古五一一四八部队二营二炮连的一名战士。那时,内蒙古是祖国前哨,战略地位很重要,部队一面抓紧战备施工,加强国防建设;一面抓实战备训练,苦练杀敌本领;同时,还要抽调少数干部和战士训练地方征兵,军民共筑反侵略钢铁长城。
期刊
随着高端制造业的不断发展,纳米位移测量技术在保证高精度、高分辨力的同时,对大量程、多维度、多参数测量需求也日趋迫切。尤其是以纳米数控机床、高端光刻机等为代表的超精密加工设备,更是要求系统工作台在X和Y二维方向同时实现大量程纳米级的位移测量。目前,实现平面二维位移测量的方法主要有两种:其一,采用两套单自由度传感器正交安装的形式,通过组合测量方法实现平面二维位移测量;其二,直接通过单一传感器实现平面二