【摘 要】
:
在大数据时代,数据通常以高速和不断变化的形式生成。在实际应用场景中,数据通常以无标签的形式存在。数据量大且形式多种多样的特性使得人类专家不可能在有限的时间内为每一个样本打上正确的标签。与此同时,标记所有样本非常耗时且成本昂贵,有时甚至非必要。因此,半监督学习技术非常适合处理这些数据。然而,由于数据不断变化的特性使得样本服从同分布这一假设在实际应用场景很难得到满足。分布不同的数据间却有着相关性,我们
论文部分内容阅读
在大数据时代,数据通常以高速和不断变化的形式生成。在实际应用场景中,数据通常以无标签的形式存在。数据量大且形式多种多样的特性使得人类专家不可能在有限的时间内为每一个样本打上正确的标签。与此同时,标记所有样本非常耗时且成本昂贵,有时甚至非必要。因此,半监督学习技术非常适合处理这些数据。然而,由于数据不断变化的特性使得样本服从同分布这一假设在实际应用场景很难得到满足。分布不同的数据间却有着相关性,我们可以充分利用这些相似的源域数据来辅助目标域快速且准确地构建模型。因此,我们关注一种新的半监督归纳迁移学习范式,即源域、目标域的数据均包含有标记和未标记样本,同时两个域之间数据分布不同但相似。这一学习范式是更加符合真实的应用场景,如在计算机辅助诊断系统应用中,医学专家仅能够仔细诊断少量医学图像。另外,由于设备的老化或升级,先前采集的医学图像很可能与当前采集的医学图像的分布不再相同。因此,半监督分类及迁移学习场景面临如下两个主要挑战:1)如何挖掘少量标记样本和大量未标记样本中隐含的知识训练得到一个泛化能力好的分类模型;2)如何从源域和目标域中的标记与未标记样本有效地学习,以实现对目标域中样本的更准确的分类。综上考虑到半监督分类及迁移学习问题的研究价值和带来的挑战,本文的研究内容总结为如下两个方面:第一,针对现有半监督分类基于分歧的方法中集成模型不能很好地权衡组件分类器的分类准确率与多样性之间关系。本文提出一种基于进化学习的半监督分类算法,称为Tri-Evolving。初始时,由生成算法基于给定的训练数据集生成三个树的种群,并从每个种群中随机挑选一个个体树作为组件分类器。然后,依次在对应的种群中重新进化每个组件分类器,其进化方向由其他两个组件分类器所诱导。具体而言,TriEvolving算法能利用多种群协同进化算法的优势去优化组件分类器的平均分类准确率与多样性。它通过保持平均分类准确率不断增加的同时尽可能减少分类器间多样性的下降,以有效地平衡学习过程中这两者之间的关系。大量的实验结果验证了TriEvolving算法的优势。Tri-Evolving算法的创新性主要在于:利用多种群协同进化算法权衡集成模型中组件分类器的平均分类准确率与多样性之间的关系,即通过保证平均分类准确率增加的同时尽可能不损失分类器间的多样性,从而诱导出泛化能力好的集成模型。第二,针对现有半监督迁移学习方法假设源域是标记完备的数据或者是已训练好的模型。我们放宽了这一严格的假设,即源域和目标域均是半监督设置且数据分布不同。基于此,本文结合半监督学习与迁移学习,提出一种新的半监督归纳迁移学习框架Co-Transfer。它首先生成三个TrAdaBoost分类器用于实现从源域到目标域的迁移学习,同时生成另外三个TrAdaBoost分类器用于实现从目标域到源域的迁移学习。这两组分类器都使用从源域和目标域中原有标记样本的有放回抽样来训练。在CoTransfer的每一轮迭代中,每组TrAdaBoost分类器使用新的训练集更新,其中一部分是原有的标记样本,一部分是由本组分类器标记的样本,另一部分则是由另一组TrAdaBoost分类器标记。迭代终止后,把从源域迁移到目标域的三个TrAdaBoost分类器的集成作为目标域分类器。在UCI数据集和文本分类数据集上的实验结果表明Co-Transfer可以有效地重用源域数据并探索两个域的标记和未标记样本来提升泛化性能。Co-Transfer算法的创新性主要在于:1)首次提出了一种源域和目标域都只有部分样本被标记的半监督归纳迁移学习类型;2)提出了一种新的半监督归纳迁移学习框架。该框架在源域和目标域之间执行双向同步的半监督学习和迁移学习,它能很好地适用于源域和目标域都仅有部分样本被标记的迁移学习且不需要特定类型的分类器;3)提出在两种情况下,即扩充源域和目标域标记样本集时,使用一定的策略来限制错误伪标记样本所带来的消极影响。
其他文献
慢性牙周炎(chronic periodontitis,CP)是一种以牙周支持组织破坏为典型特征的慢性炎症,是造成成年人牙齿缺失的最常见病因。糖尿病(diabetes mellitus,DM)且血糖水平控制不佳的患者,其患慢性牙周炎几率远高于正常人,且牙周组织破坏程度一般较血糖水平正常患者严重。在牙周炎患者牙周组织破坏重建过程中,人牙周膜成纤维细胞(human periodontal ligame
秘密图像共享作为秘密共享的一个分支,可以在一组参与者之间安全的共享秘密图像。传统的秘密图像共享方案引入门限结构,结构简单但灵活性相对不足。为了拓展方案的功能,视觉密码,加权秘密图像共享和具有核心参与者的秘密图像共享等方案被提出,但这些方案都存在种种不足,例如视觉密码方案仅适用于二进制图像,并且可拓展性有限,尤其是存在像素拓展问题;加权秘密图像共享和具有核心参与者的秘密图像共享方案仅支持简单的访问策
剪接是DNA转录为RNA的关键步骤,它高度调控着生物遗传信息的传递过程。剪接位点是DNA剪接过程中的识别靶点,对剪接位点展开相关研究不仅有助于理解复杂的剪接机制、丰富和完善DNA序列注释,还为下游RNA的分析奠定基础,因此,对剪接位点的识别是转录组研究的热点和难点。然而,现有的剪接位点识别方法中存在不少缺陷。例如,基于传统机器学习的预测方法存在需要依赖专家手动提取和选择特征、特征输入维度过大以及样
背景和目的溃疡性结肠炎(Ulcerative Colitis,UC)是临床较常见的一种炎症性肠病,存在病情易反复发作、药物不良反应多等问题。新近研究发现肠道菌群代谢产物短链脂肪酸(Short-chain Fatty Acids,SCFAs),可诱导3型固有淋巴细胞(ILC3s)的子集NCR+ILC3分化并分泌相关细胞因子IL-22,对维持肠黏膜屏障稳态具有重要作用。近来,国内外UC患者越来越多地考
对赌协议的效力从产生之初就饱受争议。《全国法院民商事审判工作会议纪要》(以下简称《九民纪要》)引入效力区分原则将对赌协议的效力和目标公司的股权回购进行分别判断,即股权回购能否实际履行不影响对赌协议的效力,从而确定对赌协议有效,由此法院裁判对赌协议纠纷的思路便从判断合同的有效性转为协议的可履行性。然而,囿于《公司法》禁止股东抽逃出资、股权回购须具法定事由,以及体现资本维持原则的诸多强制性规定,导致对
动作识别是计算机视觉领域一个具有代表性的研究方向,在智能监控、人机交互、智慧医疗等领域具有潜在的应用价值。动作识别的关键任务是提取视频中人体动作的运动特征,然而视频中动作差异较大、速度不一,如何有效地表征其运动信息仍然是学者们的一个研究难点。传统的手工设计特征方法工作难度大且识别率较低,基于深度学习的方法能够充分挖掘视频中的特征信息,快速预测视频中的动作类别,但目前仍存在着识别率不高、计算代价大的
人体骨骼肌通过收缩带动骨骼运动,将其功能性信息嵌入人体形态框架,构建骨骼肌数字孪生体进行骨骼肌物理及生理功能模拟,对“虚拟生理人”研究具有重要意义。本文结合国内外的相关文献,首先归纳总结了骨骼肌数字孪生体构建技术构架,然后分别从骨骼肌数字孪生体建模技术、数据采集技术、仿真分析技术、仿真平台、人体医学图像数据库五个方面进行综述。在此基础上,本文指出还需要在骨骼肌模型泛化、精度提升、模型耦合等方面进行
核辐射监测是核安全的重中之重,但辐射环境监测站只是对核工业过程进行状态监测,对于关键核素的预测目前主要依赖于人工方式,准确性和实时性较差,基于数据驱动的方法或许能够有效改善这一情况;但是常规循环神经网络模型在对工业时序数据进行预测时收敛速度很慢,且不能根据实时数据及时地对模型参数进行动态调整。因此,本文针对以上缺陷,提出了一种新颖的Momentum-GRU模型,通过在GRU模型中加入可学习的动量项
目的本研究采用Tee Tester数字化咬合系统,分析无症状的偏侧咀嚼者和伴颞下颌关节紊乱病(Temporomandibular disorders,TMD)症状的偏侧咀嚼者的咬合特点,为临床上偏侧咀嚼相关的TMD的诊治提供新的思路。方法1.根据调查问卷和口腔检查筛查出60名受试者,分为三组,偏侧咀嚼者40名(左侧20名,右侧20名),对照组(非偏侧咀嚼者20名)。采用Tee Tester数字化咬
随着互联网在我国的迅速发展和高速普及,信息过载使得人们在获取自己感兴趣的内容时面临严峻的挑战。而推荐系统的兴起,它不仅能提高用户黏性和用户忠诚度,而且还能通过用户属性信息以及用户的历史交互行为信息来学习用户潜在的兴趣偏好,这可以帮助用户节约筛选信息的时间,提升用户购物体验以及缓解用户在购物过程中的信息过载问题。一般而言,经典的传统推荐算法只会考虑用户和商品的历史交互行为信息,而往往会忽略在真实的推