基于半监督学习的平均一阶依赖估计器加权

来源 :吉林大学 | 被引量 : 0次 | 上传用户:Biremoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,贝叶斯网络(Bayesian Network,BN)是一种被用于在不确定性条件下进行知识表示与推理的流行媒介。贝叶斯网络分类器(Bayesian Network Classifier,BNC)是BN的一种特殊形式,它主要用于解决机器学习领域中的分类问题。在众多BNC中,平均的一阶依赖估计器(Averaged One-dependence Estimators,AODE)不需要进行参数调整或结构学习,其时间复杂度与训练数据的样本容量呈线性相关。与其他经典的BNC有所不同,AODE使用集成学习策略构建了一组网络拓扑结构相对固定的超父结点一阶依赖估计器(Superparent One-dependence Estimator,SPODE)作为其子模型,并将这些子模型的联合概率计算结果进行算术平均,进而基于最大后验概率估计的方法实现对任意一个无类变量的测试样本的预测。集成学习策略与相对固定的网络拓扑结构使得AODE在均衡了偏差与方差表现的同时展现出了卓越的分类性能,因而它在过去很长的一段时间内极大地吸引了众多研究者们的注意力。然而,AODE在对SPODE进行集成学习时所使用的基于属性值频率的模型筛选法已被证明是有一定局限性的,该方法可能对分类器的泛化性能产生负面影响,并使模型在对后验概率分布进行估计时产生偏差。为了解决这一问题,研究者们提出了许多对AODE的改进策略,这其中主要包括有模型加权、模型选择和懒惰式学习三类。相较于其他改进策略而言,使用模型加权策略的改进AODE既可以保留高分类精度、低方差的优点,同时无需进行复杂的结构学习,从而避免了该学习过程所带来的高额时间开销问题,因此本文研究的主要重点为基于模型加权策略的集成模型改进算法。根据对权重系数的学习策略不同,现有的关于模型加权策略研究中所使用的加权方法可以分为基于监督学习思想的监督加权(Supervised Weighting,SW)与基于无监督学习思想的无监督加权(Unsupervised Weighting,UW)两类。前者可能导致生成的模型对训练数据过拟合而对测试数据欠拟合,后者则可能会出现与前者恰好相反的现象,这两种现象均会影响分类器的泛化能力。过去关于模型加权策略的研究,基本是以单独表现SW或UW的有效性为主,关于这两类策略的互通性却几乎没有被提及。本文在受到半监督学习的启发下提出了半监督加权(Semi-supervised Weighting,SSW)的框架来研究当SW与UW联合起来使用时对AODE改进的有效性。在SSW框架中,模型在训练阶段从带类变量的训练数据中学习类变量与SPODE超父结点属性之间的互信息作为SPODE的权重系数以生成监督加权AODE(Supervised Weighted AODE,SWAODE)模型;模型在分类阶段从每个无类变量的测试样本中学习类变量与SPODE超父结点属性值之间的局部互信息作为权重系数以衡量测试样本中属性值之间的相互关系,并生成无监督加权AODE(Unsupervised Weighted AODE,UWAODE)模型。对数似然函数可以用于衡量BNC对数据拟合效果的优劣,因此在SWAODE与UWAODE的集成阶段本文引入了对数似然函数对这两种加权AODE在拟合数据方面的表现进行整体评估,并使用了基于该函数值的线性加权法对SWAODE与UWAODE的联合概率分布求期望值,最终生成了半监督加权AODE(Semi-supervised Weighted AODE,SSWAODE)模型。来自UCI数据库的38个数据集的实验结果表明,SSWAODE与包括NB、TAN、WATAN、CFWNB、AODE、WAODE-MI、AVWAODE-KL等算法在内的其他先进的BNC相比,在分类精度、偏差与方差、ROC曲线下面积等评价体系下均有着较强的竞争力。
其他文献
暗流云峰铝铁矿位于黔中铝土矿成矿区北部,区域成矿地质条件优越,资源丰富,根据等离子质谱法分析结果显示,矿区内稀土元素含量较贵州省内其他铝土矿区高,可能具有较大的经济价值,本文主要探讨铝土矿及围岩的矿石类型、化学成分、矿物成分与稀土元素含量之间的关系,发现稀土元素含量与粘土矿物含量基本呈正相关性,而白云石、方解石等不利于稀土元素的富集,同时应加大对省内含铝岩系中稀土元素的研究,保证资源的合理利用。
期刊
研究旨在评价不同品种(系)饲用高粱在甘肃临夏半干旱区的生产性能与饲用价值,引进7个不同饲用高粱品种(系),对各品种(系)在当地的生产性能和饲用价值开展研究分析,采用隶属函数法对7个高粱品种进行生产性能和营养品质的综合评价。结果显示:供试品种的株高和节间数均以NX-4264最高,茎粗以陇甜粱2号最粗,有效分蘖数和全株叶片数以海牛最高,主茎叶片数以大卡最高,单株鲜重、单株叶鲜重和单株茎鲜重均以陇甜粱1
期刊
学位
研究目的颅内动脉瘤是一类较为常见的疾病,然而一旦破裂会导致严重后果。目前,对于较大的颅内动脉瘤的破裂风险和治疗策略已有较多公认的研究。但对于小动脉瘤(<7mm)破裂相关因素的研究和治疗策略的研究仍存在争议。研究方法我们通过回顾性研究,筛选了自2016年1月至2019年12月共555例颅内动脉瘤患者,记录并分析了入院时一般临床特征,动脉瘤大小、部位、形状,术后并发症、预后情况等。研究结果入院时平均动
学位
近年来,随着各种知识图谱技术的发展,知识图谱的规模在不断扩大,各领域也纷纷开始根据自身需求去构建新的知识图谱。如今,知识图谱被广泛应用于检索,问答和推理等任务,支撑着许多行业的应用。然而,单一的知识图谱已经不能满足实际的应用需求,而各个知识图谱间又存在信息冗余,异构等问题,因此知识融合成为人们关注的话题。实体对齐是知识图谱融合的重要组成部分,目的是寻找不同知识图谱间指向真实世界同一实体的节点。随着
学位
随着移动信息技术和移动设备的不断普及,移动应用程序(Mobile Application,App)已经渐渐覆盖了人们的日常生活,包括学习、娱乐和社交等活动。尤其是在新型冠状病毒COVID-19爆发后,人们的许多线下活动也转移到了App或者其他在线工具来进行学习、交流和工作。这些App在为人们提供诸多便利的同时,也渐渐改变着人们的日常生活方式。然而,并不是所有用户都能够便捷的使用App,那些存在视力
学位
急性淋巴细胞白血病是一种由淋巴样前体细胞恶性增殖所致的血液系统恶性肿瘤。近年来经过标准化疗,新发的成人急性淋巴细胞白血病缓解率较前有了极大提高,但是在复发难治的急性淋巴细胞白血病中治疗效果不佳。因此针对难治复发的白血病,近年来涌现了多种新型治疗药物和治疗手段,嵌合抗原受体T细胞(CAR-T)治疗即为当前最热的研究领域之一,该疗法在难治复发急性淋巴细胞白血病中完全缓解率可达90%,改善了患者的预后生
学位
医学影像在临床诊断中发挥着十分重要的作用,不同的影像传递的医学信息不同:电子计算机断层扫描(Computed Tomography,CT)对高密度区域更敏感;磁共振成像(Magnetic Resonance Imaging,MRI)对软组织结构显示更加清晰。由于单模态医学图像自身蕴含的信息有限且无法满足日益复杂的医学诊断需求,医生需要同时对多种模态数据进行详细分析,这增加了疾病的识别成本,同时加重
学位
<正>随着社会环境和用眼习惯的改变,智能手机、电子产品的普及和使用,视觉使用远超负荷。时间长了,人们普遍感到眼皮沉重、酸胀、干涩、疼痛、眼异物感和烧灼感、流泪、眼眶疼痛等眼部不适;严重者甚至会出现头痛、头晕、记忆力减退、视物模糊、视物重影、恶心、呕吐等症状。这就是典型的视疲劳和干眼症,它们常常结伴而行,视疲劳时会出现眼干涩,干眼时会出现视疲劳。它们极大地影响了人们的工作和生活,为人们带来漫长的痛苦
期刊
研究目的:本研究通过检测hepcidin在NEC患儿外周血中的水平,及其病变肠道炎症因子的表达,并用动物模型验证,分析hepcidin在NEC发生发展中的作用,探讨hepcidin与疾病发生发展之间的关系,为进一步分析hepcidin在NEC发生发展中的作用奠定基础,为探索NEC防治的分子靶标提供新思路。研究方法:本研究采用前瞻性研究结合动物实验,经医院伦理委员会批准并获得患者知情同意后,将32例
学位