面向正类和无标记样本学习的最优传输算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:dragondk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能时代,机器学习在数据、模型和算力的加持下,成功推动了推荐系统、自动驾驶、机器翻译等一系列应用的成熟。现实世界中,标记样本集的获取往往成本高昂,如何充分利用无标记样本提升模型性能是一项至关重要的任务。正类和无标记样本学习(Positive and Unlabeled Learning,PU Learning)面临一种更特殊的场景,标记样本只有正样本,其余都是无标记样本。因为负样本的缺失,经典的机器学习分类模型不能直接应用于PU学习问题。针对负样本缺失问题,提出一种基于最优传输(Optimal Transport,OT)的PU样本建模方法,用OT系数分布的熵表示无标记样本和正样本之间的相似性,度量无标记样本到正样本的距离,以区分无标记样本中潜在的正负样本。基于熵距离归一化计算无标记样本的熵权值,提出熵权分配法(Entropy Weight Allocation,EWA),并以支持向量机为基础模型,实现了熵权分配支持向量机(Entropy Weight Allocation Support Vector Machine,EWA-SVM),基于Rademacher复杂度分析了EWA-SVM的泛化性能。作为EWA模型的扩展,在最优间隔分布学习机、梯度提升决策树和多层感知机等模型中实现EWA方法,说明EWA是一种通用的PU学习方法。为了评估EWA-SVM在PU学习任务中性能的提升,在多个真实数据集上与基准PU模型进行对比。与现有最先进的PU模型相比,EWA-SVM的F1度量最高能实现19.9%的提升,平均F1度量提升了5.7%。消融实验中,四种EWA模型在经典机器学习模型基础上,PU学习任务平均F1度量提升了23.5%-42.8%。
其他文献
基于硫系相变材料的相变显示器件因其高分辨率、高切换速度、可柔性显示、低功耗等特点成为备受关注的新型显示技术之一,它主要利用焦耳热效应驱动硫系材料在晶态与非晶态间发生快速可逆的转变,通过相态转变引起的光学性能变化来实现不同图案的显示功能。但是由于纳米尺度热学表征手段的匮乏,目前关于相变显示器件的研究主要集中在光学和电学性能上,缺乏有效的器件热设计优化方案,并且现有相变显示器件主要采用相变材料自加热模
学位
大气污染中广泛存在气溶胶状态污染物,如悬浮颗粒物、飘尘和可吸入粒子等,污染物气溶胶给人类健康带来了危害,目前主要采取物理吸附作为收集手段,但存在易脱附、效率低、使用寿命短和对病原体气溶胶无灭活能力等诸多问题。近年来大气压非热等离子体由于能产生高密度活性基团和带电粒子,在气溶胶荷电收集及病原体消杀中取得突破性进展,然而目前对气溶胶荷电机理和收集效率缺少系统性研究,限制了其进一步推广应用。针对此问题,
学位
纳米材料的各向异性在生物医学应用中具有独特的优势,其中形貌的各向异性在纳米药物研究领域受到更多关注。相对于无机纳米材料而言,聚合物纳米材料的生物安全性更好且种类丰富。共轭聚合物由于其特殊的共轭主链结构,在各向异性纳米材料的制备和调控方面具有潜在优势。本研究从共轭聚合物的分子结构出发,提出了一种全新的合成各向异性纳米凝胶的策略。该策略以共轭聚合物聚十烷-4,6-二炔酸(poly(deca-4,6-d
学位
为了提高盾构施工安全水平,开展有效的安全风险评估一直以来都是现场安全管理研究的重点。由于盾构施工现场的人、盾构机和环境紧密耦合成一个复杂的社会技术系统,系统安全与人-机-环的动态交互密切相关。因此,从人-机-环动态交互的系统视角评估盾构施工安全风险,分析微观的个体认知、盾构机运行和环境演化的交互作用对宏观系统安全的影响,有助于深入理解和把握现场系统安全,识别其中潜藏的关键风险因素,从而为现场安全管
学位
随着红外技术的发展,红外成像空中目标跟踪已得到广泛的应用,但红外诱饵等人工干扰会对空中目标跟踪产生严重影响。红外诱饵在辐射特性上既有压制型诱饵,又有相似型诱饵,在时空域上也表现出多种复杂的空间和行为特性,仍是目前空中目标跟踪需要解决的重要课题。本文针对复杂红外诱饵干扰条件下的目标跟踪问题开展研究。为了提升算法的抗红外诱饵干扰能力,本文采用了先对干扰事件和诱饵类型进行检测、判别,进而针对不同事件和诱
学位
随着人工智能和多智能体技术的发展,通信受限情况下的多智能体合作问题已成为人们关注的焦点。作为一种多人合作卡牌游戏,Hanabi游戏为研究多智能体间的交互提供了一个很好的场景。通过研究玩家在游戏中如何交流,探讨玩家传递信息的方式,不仅对人工智能理论发展起到推动作用,同时也能为现实中通信受限情况下的多智能体系统协同提供解决方案。论文对Hanabi游戏中玩家如何交流进行了研究。在对Hanabi游戏进行形
学位
宫颈细胞图像的分类和分割算法是计算机辅助宫颈细胞学筛查的重要基础。近年来基于深度学习的宫颈细胞图像分析算法以远超传统算法的效果得到了越来越多研究学者的关注。现有宫颈细胞图像分类和分割方法通常采用人工针对其他任务设计的通用网络结构,或专为宫颈细胞图像设计的特定网络结构。但由于通用结构未考虑宫颈细胞图像的特点且人工依据经验设计的网络结构存在主观偏差,精度和性能还有提升的空间。网络结构搜索以其针对特定数
学位
随着通信技术的迅猛发展,信息安全问题受到社会各界的广泛关注。在密码学中,序列密码体制的安全性取决于密钥流,而密钥流的安全性取决于随机数发生器。随机数发生器是序列密码设计中的重要环节,如何构造安全可靠的随机数发生器具有很高的研究价值。混沌是确定性系统中存在的一种内在随机现象,具有周期无穷大、不可预测性和参数敏感性等复杂的性质,很适合构造随机数发生器。因此,设计了一种基于混沌的真随机数发生器,具体研究
学位
随着移动互联网服务的快速发展,序列推荐系统在现代社会扮演着越来越重要的角色。一些研究表明满足三角不等式的度量学习相比于内积计算更能捕捉用户与物品之间的关系、以及用户之间的相似性和物品之间的相似性。但现有基于度量学习的序列推荐模型仍存在用户兴趣捕捉不完整、易产生度量空间冲突和无法区分负样本等问题。为解决上述问题,提出了基于多重对称度量学习的序列推荐模型,设计了四个独立模块来从用户长期兴趣、用户短期兴
学位
关系抽取任务旨在从复杂的非结构化文本中抽取结构化的关系事实,以标记实体对之间的语义关联,是信息抽取领域重要的研究任务之一。关系抽取的结果可用于知识图谱的构建,同时也为智能对话,知识检索等人工智能领域技术提供了重要的基础支持。现有的关系抽取主要聚焦于句子级别,即抽取位于同一句中实体之间的关系。然而在真实应用场景中,大量关系事实需通过多个句子所包含的复杂相互关系中推理得到。同时,实体间可能存在的非单一
学位