基于“合作—参与”计算认知模型的半监督学习算法研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：zhangwenda_gz

【摘要】

：

机器学习是数据挖掘和模式识别的核心研究内容之一,近年来随着互联网和信息技术的发展,海量数据迅速积累。监督学习需要大量带标记数据做训练集,以保证所得假设的泛化能力。

【作者】

：

邓超

【出处】

：

哈尔滨工业大学

【发表日期】

：

2009年期

【关键词】

：

半监督学习 Co-training 计算认知模型 PAC可学习 MapReduce并行化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习是数据挖掘和模式识别的核心研究内容之一,近年来随着互联网和信息技术的发展,海量数据迅速积累。监督学习需要大量带标记数据做训练集,以保证所得假设的泛化能力。但在计算机辅助医学图像诊断等实际应用中,对数据进行人工标记的代价很高,容易获取的是大量无标记数据。无监督学习属于无任何监督信息的自动学习,虽不需要带标记数据,但所得模型却不够精确。因此,将少量带标记数据和大量无标记数据结合的半监督学习成为研究热点。现有半监督学习算法尝试利用大量无标记数据提供的额外信息引导学习过程、提高学习性能。然而,现有算法通过自动方式从无标记数据中获取的额外信息中既包含有用信息也包括误导信息。有用信息将使学习性能提高,而不可避免的误导信息则会使学习性能降低。因此,半监督学习中无标记数据使用的安全性成为提高学习性能亟待解决的挑战。此外,在实际大规模数据学习任务中使用现有基于内存、串行执行的半监督学习算法时,大规模无标记数据的加载和计算,会形成存储和计算效率瓶颈,制约其应用。针对半监督学习中无标记数据使用的安全性挑战,本文首先构建符合人类半监督学习特征的计算认知模型,然后基于该计算认知模型,重点研究半监督学习算法中无标记数据额外信息中误导信息和有用信息的甄别与自适应选择、利用方法,以解决半监督学习的安全性问题。此外,将半监督学习算法应用于CT图像肺结节诊断大规模学习任务时,探索利用MapReduce并行计算模式,实现半监督学习算法在PC机集群上的并行执行,以适应大规模数据集上的可扩展要求。本文的主要研究成果包括:(1)提出一种用于提高半监督学习安全性的“合作-参与”计算认知模型本文借鉴认知心理学研究成果,抽象出符合人类群体相互学习特征的合作学习(collaborative learning)计算模型;同时,将符合人类个体自我学习特征的参与学习(participatory learning)计算模型作为合作学习模型中每个对等学习器的计算模型,构建出符合人类半监督学习特征的“合作-参与”计算认知模型。该计算模型的核心是共享知识池、接受组件和评价组件。共享知识池的更新和使用机制决定无标记数据中额外信息的发掘和使用策略;接受组件内接受机制对从共享知识池中获取的无标记数据额外信息进行甄别;评价组件通过唤醒机制对接受组件的有效性进行评测、并屏蔽接受机制对额外信息的错误甄别。本文利用该计算认知模型对Co-training式半监督学习算法剖析,得出提高半监督学习安全性的策略为:在现有算法利用共享知识池使用无标记数据额外信息基础上,通过引入接受组件和评价组件,对额外信息中误导信息进行有效识别和过滤。(2)提出一种“合作-参与”模型指导的半监督聚类算法半监督聚类算法常用有限的带标记数据组成seeds集对聚类中心初始化,以提高其在全体数据集上的聚类性能,研究表明seeds集的规模和质量都直接影响半监督聚类算法的性能。本文基于“合作-参与”模型,提出一种从大量无标记数据中自动获取大规模、高质量seeds集的半监督聚类新算法。首先“合作-参与”计算模型中知识池共享机制采用三个分类器间Tri-training迭代训练过程,接受组件的接收机制定义为基于最近邻规则(Nearest Neighbor Rule)的Depuration数据剪辑技术。本文新算法在用seeds集初始化聚类中心前,利用Tri-training的迭代训练过程对无标记数据进行标记,并加入共享知识池,以扩大seeds集规模,同时,在Tri-training训练过程中由接受组件内Depuration数据剪辑技术对seeds集扩大过程中产生的误标记数据进行修正、净化,以提高seeds集质量。实验表明本文提出的“合作-参与”模型指导的半监督聚类新算法能有效改善seeds集对聚类中心的初始化效果,提高聚类性能。(3)提出“合作-参与”模型指导的Co-training式半监督分类算法基于多分类器集成的Co-training式半监督分类算法,由初始带标记数据训练N(N>2)个分类器,然后利用N-1个分类器组成的集成学习器对无标记数据标记,为第N个分类器重新训练提供所需的额外信息。然而,由于初始带标记数据很少,不足以训练出高精度分类器,所以集成学习器提供的额外信息中包含相当数量的误标记数据是不可避免的(即成为误导信息)。为提高无标记数据使用的安全性,本文通过在Co-training迭代过程中引入“合作-参与”模型的接受组件和评价组件,实现自适应地对误标记数据进行识别和移除,保证不同情形下所得假设的泛化性能。具体地,接受组件内接受机制定义为对新标记数据的RemoveOnly数据剪辑操作;评价组件内唤醒机制在对RemoveOnly剪辑操作正面和负面效应进行量化测度基础上,通过自适应策略控制RemoveOnly的触发与抑制。本文以三分类器Tri-training算法和多决策树Co-Forest算法为研究对象,分别提出相应的半监督分类新算法,称为基于自适应剪辑策略的Tri-training算法和基于自适应剪辑策略的Co-Forest算法。实验表明两种新算法具有更好分类泛化性能。(4)半监督分类新算法中自适应剪辑策略保证泛化能力提高的理论证明本文提出的两种基于自适应剪辑策略半监督分类算法中,自适应策略定义为一系列判定剪辑操作触发的充分条件的组合。本文以定理形式给出不同情形下剪辑操作触发的充分条件,并证明这些充分条件在PAC可学习理论框架下,能够保证新训练集规模迭代增大同时确保剪辑操作的触发能使所得假设的分类错误率降低更多。(5)提出对大规模数据集分块计算的MapReduce并行化半监督算法针对大规模数据实际应用情形下,串行半监督学习算法的存储和计算瓶颈,本文基于MapReduce并行化技术,实现原算法在普通PC机集群上的并行、精确执行。具体地,基于数据集先分块并行计算最后汇总的思想,将半监督学习算法中涉及高吞吐量的计算步骤,改写为可并行执行的map函数和reduce函数。理论上,随着PC计算节点的线性增加,MapReduce并行化算法执行时间的相对伸缩比可达线性。CT图像肺结节诊断应用表明本文并行化半监督学习算法计算时间相对伸缩比接近线性。

其他文献

提高高校教职工政治理论学习实效性研究

开展政治理论学习是提高教职工思想政治素质的重要措施，在学习主体、学习客体、社会环境发生变化的情况下，要提高教职工政治理论学习实效性，就要明确为何要学，树立以人为本的原则

期刊

高校教职工政治理论实效性

长寿命斯特林制冷机膨胀机无摩擦运行技术

论述了长寿命斯特林制冷机膨胀机的结构，重点对排出器活塞与冷指气缸无接触运行控制方法进行论述。制冷机正在进行加速寿命跑和，运行很好。

期刊

斯特林膨胀机无接触运行寿命Stirling expander Non - friction running Long life

汉字的表意性和对外汉字教学

汉字属于表意文字，具有表意性的特点，这一特点导致了汉字与拼音文字不同的认知模式；在对外汉字的教学中要充分利用汉字的表意性，提高汉字教学的效率；通过讨论汉字表意性的特点，以及

期刊