【摘 要】
:
正样本未标记样本学习(PU learning)是研究在模型的训练阶段只通过正样本和未标记样本来训练二元分类器的问题。最近,PU学习已经在许多领域得到了广泛的研究和应用,但是目前现有的研究大多数都是利用单个域的知识来构建分类器进行预测,由于PU学习场景下样本数量较少,模型难以取得较好性能。此外,PU学习属于半监督学习问题,无法在训练阶段计算模型的分类误差,所以现有的PU学习方法都未能使用boosti
论文部分内容阅读
正样本未标记样本学习(PU learning)是研究在模型的训练阶段只通过正样本和未标记样本来训练二元分类器的问题。最近,PU学习已经在许多领域得到了广泛的研究和应用,但是目前现有的研究大多数都是利用单个域的知识来构建分类器进行预测,由于PU学习场景下样本数量较少,模型难以取得较好性能。此外,PU学习属于半监督学习问题,无法在训练阶段计算模型的分类误差,所以现有的PU学习方法都未能使用boosting算法的思想来提升分类器性能。基于上述问题,本文提出了一种基于Adaboost的迁移学习方法来解决PU学习问题,简称Ada TLPU。第一步,为了在源域和目标域得到负样本,我们从不带有负样本的PU学习数据集中提取可靠的负样本。第二步,对于模糊样本,我们利用相似度模型让其能在决策边界中更好的发挥作用。然后,根据相似度权重和共享SVM参数及正则化项的迁移学习,得到了本文的目标方程。在该模型中,通过共享支持向量机参数和正则化项,将源任务知识传递给目标任务。同时,分类器利用模糊样本对正类和负类的相似度权重,对分类器的决策边界进行细化。此外,我们的方法采用Ada Boost算法对得到的弱分类器进行集成,最终得到一个用于预测的强分类器。在目标方程的优化中,通过引入拉格朗日乘子,将目标方程转换成对偶形式。我们根据样本的相似度权重提出了一种计算PU学习分类器分类误差的新公式。根据这个分类误差计算公式,我们给出了基于Ada Boost的迭代优化方法和相应的训练误差界证明。最后,我们组织实验来探究Ada TLPU的性能,结果表明我们提出的方法比基准线方法取得更好的效果。总而言之,本文的主要贡献如下:(1)本文首次提出了一种将迁移学习和Ada Boost算法运用到正样本未标记样本学习问题中的方法,让源域的知识可以迁移运用到目标域的分类中,提升目标任务的分类效果。同时,我们将未标记样本集合中包含的模糊样本的相似度权重整合到基于迁移学习的分类器中,以便模糊样本可以根据它们的相似度权重对分类器的构建做出贡献。此外,我们还根据样本的相似度权重,提出了一种衡量PU学习分类误差的计算公式,使得Ada Boost算法可以被运用到PU学习问题中。(2)为了求解我们提出的Ada TLPU模型,我们在原问题中引入拉格朗日乘子得到对偶问题来对模型进行求解。另外,我在模型的实现上使用了Ada Boost框架,通过多次的迭代并不断调整基分类器的权重,最终得到性能优良的强分类器。因此,我们可以通过迁移学习和Ada Boost算法来解决PU学习问题。(3)本文组织了一系列实验来探究Ada TLPU模型的性能,结果表明我们提出的方法比基准线方法取得更好的效果。
其他文献
随着医学研究的深入,房颤的危害性正逐步受到重视,房颤的监测与治疗已经成为研究热点。对房颤信号的时域特征和频域特征的分析有助于房颤患者身体状况的监测,有助于房颤及其并发症的研究。因此,房颤信号的实时提取具有重要的研究意义。基于模板匹配的单导联房颤信号提取方法运算简便但普遍有提取精度较低的缺点,而基于深度学习的方法虽然已被证明能准确地提取房颤信号,但同时也面临一些问题和挑战。现有房颤信号提取网络规模较
旋翼无人机(UAVs)由于其简单的结构,强大的机动性,以及在商用和军事领域的巨大应用价值引起了研究者们的广泛兴趣。特别在过去的十年里,人们对在轻量级、短距离的空中运输技术的研究兴趣显著增加。轻量级、短距离的空中运输技术对快递配送,城际运输和紧急救援等都有重要意义。因此,作为结构最简单的无人机,悬挂负载的四旋翼无人机是在复杂或危险环境下进行物资转移和物资配送的重要运输工具。由于四旋翼运输系统是一个只
仿人机器人机动的构型使得它具有开阔的应用价值。随着仿人机器人技术的成熟和完善,机器人逐渐掌握了从爬动、行走、跳动到奔跑、空翻的运动能力。在自然界中,许多动物善于运用环境改变自身的运动状态,比如转身或者减速急停。机器人在运动过程中如果来不及减速很有可能会直接与障碍物发生剧烈撞击。因此,如果运动的机器人在面对环境中的壁面障碍物时能够模仿其他动物通过规划和控制自身动作及运动策略让自身转向或者停下,将能够
场景流表示动态场景中每个点的三维运动,其作为理解三维环境变化的基本特征,广泛应用于自动驾驶、运动分割和动作识别等领域。随着激光雷达技术的发展,点云成为三维数据的基本形式,直接从点云数据中估计三维运动逐渐成为研究热点。以往的点云运动估计任务主要面向自动驾驶场景,本文将其拓展到人脸运动估计应用,估计由表情变化引起的脸部运动,可以客观描述人脸表情,相较于传统二维人脸视频,运动信息更加准确,且不受拍摄角度
随着非线性系统结构的日益复杂,控制系统将存在着各种非线性与不确定性因素。另一方面,引入系统的执行器也存在着各种各样的非线性约束,这不仅会使得整个控制系统的控制精度受到严重影响,对非线性系统的控制设计来说也带来巨大困难。比如精密控制中的压电位移台,除了其具有高精度、高响应等特点外,内部存在的磁滞非线性使得输出与控制输入之间呈非线性,对于许多不具备磁滞补偿能力的非线性系统来说磁滞非线性是不容忽视的,更
中文成语多从中国古代寓言、历史故事、神话传说或者口语流传而形成,由于其表达形象且精炼的优点而常被人们应用于日常语言表达中。一般来说,成语通常由四个文字按照中国古汉语的语法组合而成。因此,短短四字成语所蕴含的语义往往比数十或数百个字的段落句子更加丰富,其表达的语义不能直接运用现代汉语来解释。目前自然语言处理领域对于中文成语的研究还处于初步阶段,主要有成语机器阅读理解和成语推荐等研究。而对于中文成语语
<正>知行合一,这是思想政治理论课追求的终极目标。探究“知行合一”在高职思政课教改中具体应用,旨在进一步改革创新,挖掘思政理论精髓,拓展思政课堂视野,培养大学生对思政理论认同,以理论知识引导大学生行为实践,以科学引导方式来培养大学生理性认知。一、研究的意义为了实现思政课大提升、大格局,进一步开拓思政课教学视野、创新课堂形式,做到理论联系实际,帮助学生立大志、明大德、成大才、担大任。具体来讲,具有以
应《国家中长期科学和技术发展规划纲要(2006-2020年)》,服务机器人目前正处于快速上升阶段,而机器人的感知赋能因此逐渐成为一个研究热点。当前的服务机器人若要完成最基本的功能,主要的感知需求在于视觉算法的应用。针对家庭场景下的服务机器人,本论文基于深度学习网络设计了一个包含多个视觉任务,可应用在服务机器人上的视觉系统,并且以中国机器人大赛-助老服务机器人赛项作为落地场景,进行相应的介绍以及功能
近年来,国内的在线医疗社区愈来愈活跃,一方面是因为传统门诊存在医疗资源分配不均匀造成拥挤的问题以及病患存在距离和时间上的限制,另一方面是因为新冠疫情下网上问诊既能缓解医院线下接诊的压力、向患者提供专业的医疗服务,还可以减少新冠病毒的交叉感染。但现有的医疗问答更多是以人工回答的方式,因此开发一个自动医疗问答系统能够有效地减少医生的工作量和缓解医疗资源的不平衡。而答案选择作为问答系统的关键组成部分之一
随着人工智能的兴起,大数据时代的来临,有线通信的数据传输速率越来越高,其数据率更是达到了每十年翻两倍的增长率。随着数据传输速率的增长,同轴电缆在高速传输过程中出现了高损耗、大体积和高功耗等缺点。与金属相比,光纤具有较低的损耗和较小的体积,因此光纤通信有很大可能成为解决高速通信瓶颈的重要方式。光通信系统主要包括电光发射机和光电接收机两部分。其中光电接收机由光电二极管,跨阻放大器,限幅放大器,时钟数据