面向缺失数据的因果特征选择算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:danshenguizu920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因果特征选择旨在学习类变量的马尔可夫毛毯(Markov blanket,MB)。类变量的MB意味着类变量和它的MB之间存在潜在的因果关系,以类变量的MB为条件,所有其它特征在概率上独立于该类变量,这使得因果特征选择能够识别潜在的因果特征用于特征选择,以构建健壮、可解释的预测模型,并且在理论上,类别变量的MB已经被证明是特征选择的最优特征子集。当前的因果特征选择算法主要处理没有缺失值的数据,然而缺失数据在现实世界的许多应用中普遍存在,由于其技术的复杂性,面向含有缺失数据的因果特征选择仍然是一个开放的研究问题。本文开展了面向缺失数据因果特征选择算法的相关研究,主要取得了如下创新性的研究成果:(1)本文提出了一种基于kNN(kNearest Neighbors)单重填补的因果特征选择算法。首先,针对kNN填补方法在填补离散属性的缺失值时效果不太理想的问题和在含有缺失率较大的数据集上无法进行填补的问题,本文提出了一种简单且有效的增强kNN填补算法(EkNN)。该算法采用了两种距离度量方式分别去计算连续属性和离散属性的相似度,从而提高了传统的kNN填补方法在估算离散属性的缺失值时的填补精度。该算法同时利用具有缺失值的数据实例和完整的数据实例作为观测数据去选择一个具有缺失值实例的k个最近邻,从而有效缓解了当数据集所含的缺失值比例较大时,不能进行有效的数据填补问题。然后,基于EkNN,本文提出了一种单重数据填补的因果特征选择算法。最后,实验结果表明基于EkNN单重填补的因果特征选择算法优于其它方法。(2)基于EkNN单重填补方法,本文进一步提出了一种新颖的多重填补框架(Multiple imputation MB,MimMB)。MimMB在一个统一的框架中集成了数据填补和MB学习,使这两个关键组件能够相互配合。MB的学习促使数据填补可以在一个潜在且低维度的因果特征空间中进行,从而实现面向高维度缺失数据的准确填补,而准确的数据填补反过来则可以帮助MB学习识别类变量的可靠的MB。此外,该框架不仅可以通过现有的因果特征选择算法进行实例化,而且也可以通过经典的传统特征选择方法进行实例化。在实验评估中,在模拟数据集和真实数据集上,实验结果验证了本文提出多重填补框架可以有效地从数据中学习给定变量的MB,并优于其它处理缺失数据的特征选择算法。
其他文献
在很多应用程序中,一个非常关键的操作是两个对象或者是多个对象之间相互模型的比较。如果结构化的信息可以用图表示,这种比较就可以转化为图的比较,而图模式匹配技术从本质上而言就是图的比较。给定一个模式图,在数据图中寻找与模式图具有相同或者相似结构的子图,这就是图模式匹配。然而目前图模式匹配的研究多集中于挖掘社交网络中满足特定要求的关系信息,在其他领域的研究相对偏少。同时由于医疗知识图谱中蕴含着大量丰富且
学位
会话问题生成的目标是根据会话历史和文本段落生成延续历史内容的问题。目前针对会话问题生成任务的研究缺少对潜在信息的深入挖掘以及会话历史信息的关注。故本文从有答案意识和无答案意识两种方式对会话问题生成任务展开论述,具体内容如下:(1)有答案意识的会话问题生成任务需要在给定提示语句的情况下,生成与之相关联的问题。本文围绕会话历史设计单词及句子层次的注意力机制模块,提高生成的每一个单词与会话历史之间的关联
学位
基于深度学习的目标检测模型近年来取得了巨大进步,然而检测图像中的小目标仍是目标检测领域的一大难题。由于小目标具有尺寸小、分辨率低等特点,大多数目标检测模型无法从小目标中获取足够的特征信息。本文将从不同的角度研究与改进基于深度学习的小目标检测模型,并进一步提升小目标检测模型的检测精度。本文的主要研究工作如下:(1)已有的YOLOv5目标检测模型虽然在特征增强网络中引入双向特征金字塔结构提升了检测精度
学位
近年来,新冠疫情的爆发给人类生活方式带来了巨大的变化,其中线上学习和网络销售的用户量呈现指数式的增长,随之出现的大量文本评论常常隐藏着用户的观点和情感倾向,对这些文本评论作情感分析可以帮助政府和市场更精准分析用户意向,从而做出科学有效的决策。而传统的情感分析侧重于捕捉文本中单个实体的整体情绪,而不是捕捉该实体每个方面或特征的情感极性,使得用户对实体的看法无法被深度挖掘出来。因此提出了方面级情感分析
学位
偏好补全已经被广泛应用到多个领域,如社交选择、推荐系统等。显然,在这些领域中,每个用户只有针对部分项目的排序,而让用户提供一份针对所有项目的完整的排序很多时候是不现实的。偏好补全的目标是利用所有人的不完整的偏好排序来推断出每个人的针对所有项目的一份完整的偏好排序。本文的主要工作如下:(1)针对现有的偏好补全方法由于偏好排序噪音的存在导致算法的准确性低的问题,本文提出了基于确定性的偏好补全算法。首先
学位
近年来,强化学习方法被广泛用于多智能体领域。多智能体中任务复杂,可能在任务结束时才能获得环境的反馈,造成奖励稀疏的问题。受人类好奇心的启发,单智能体中解决稀疏奖励问题的一种思路是通过内在奖励促进智能体探索新颖状态,因为多智能体联合状态空间巨大,简单的将这种思路扩展到多智能体中容易造成过度探索而不能学习任务,且这种方法利用智能体观测学习状态特征不适合部分可观测环境。针对上述问题,本文基于内在动机强化
学位
片上网络(Network-on-Chip,No C)作为新型通信架构,具备良好的可扩展性和并行性,可以满足片上日益增长的通信需求,已经成为片上多核系统事实上的标准。在片上网络的设计中,如何避免数据包路由死锁,是保障通信架构可靠性的核心问题。片上网络死锁避免领域的相关工作大都是在Dally的理论基础上发展起来的。该理论认为,如果网络的通道依赖图上没有循环依赖,网络就是无死锁的。然而,找到这样的无环图
学位
片上网络(Network-on-Chip,NoC)现在广泛应用于多核系统当中。近几年,基于NoC的深度神经网络(Deep Neural Network,DNN)加速器被提出,它将神经元计算设备通过NoC相连。该设计能够有效地减少加速器对片外存储的访问,从而降低加速器的分类延迟和功耗。然而,在基于NoC的深度神经网络加速器当中存在着大量的一对多流量,传统的解决方式是使用单播方式传递多个相同的数据包副
学位
雷达作为检测飞行目标的最主要手段,在飞行目标的研究中发挥着不可比拟的优势。由于多雷达融合系统的不断发展,传统的针对多传感器航迹关联和中断航迹关联的算法已经难以应对当前越来越复杂、越来越多样的雷达探测环境。为了更好地挖掘雷达航迹信息,利用航迹信息认知空间态势,从而为空域的监管提供有效的支持,本文基于深度学习技术,分别进行了多传感器航迹关联和中断航迹关联问题研究,主要研究内容如下:(1)提出了一种基于
学位
多变量时间序列(MTS:multivariate time series)数据是多个变量在一段时间内按照一定时间间隔记录的观测值数据。MTS聚类可以在缺乏先验知识的情况下将样本划分成有意义的簇,是一种广泛应用于金融分析、流量预测、临床诊断等领域的关键技术。MTS具有模式复杂、时间顺序、变量之间存在相关性等特性,如何利用这些特性提升MTS聚类效果具有重大理论和应用价值。受图嵌入技术在各领域的优异表现
学位