面向复杂数据分布的PU学习算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:SHIWENBEI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正类和无标签类学习(Positive and Unlabeled learning,PU学习)作为弱监督学习领域中不完全监督的一个重要分支,由于其在实际应用中的有效性和实用性,得到了越来越广泛的关注和研究。与传统的有监督学习不同,PU学习的目的是仅从正样本和无标签数据中训练一个二元分类器。由于PU分类器的训练不依赖于负样本,因此,在实际问题中,如果负样本缺失或者分布过于分散时,可优先使用PU学习来解决这些问题。在PU分类器的实际应用中,常常会遇到复杂数据分布的情形,如数据分布不均衡(即真实的正样本和真实的负样本占整个数据集的比例相差太大)和数据线性不可分(即无法用一个线性超平面将两类数据完全区分开)。现有的PU学习分类器在处理这两种情形时往往性能不佳。因此,本文重点研究面向这两种复杂数据分布的PU学习算法。主要包括以下三个方面的工作:1)对现有的PU学习算法的研究与讨论。主要研究已经存在的PU学习算法的问题设定、算法框架以及理论分析,客观地探讨这些算法的意义以及在处理复杂数据分布时的不足之处。2)面向数据分布不均衡的复杂数据分布类型,本文提出了一种代价敏感的PU学习算法(Cost-Sensitive Positive and Unlabeled learning,CSPU)。该算法分别给假负类和假正类产生的损失分配不同的权重(即代价敏感),然后将PU学习视为一个关于无偏双合页损失的经验风险最小化问题,使得目标函数为凸。CSPU算法是一个二次规划问题,可以通过现成的二次规划优化工具箱轻松求解。此外,本文还从理论上分析了该算法的时间复杂度和基于Rademacher复杂度的泛化误差界,保证了CSPU算法的有效性。3)面向数据线性不可分的复杂数据分布类型,本文提出了一种判别式的PU学习算法(Discriminant Positive and Unlabeled learning,DPU)。该算法是一个包含上层问题和下层问题的双层优化问题,其目的是寻找一个投影矩阵使得数据投影到新的特征空间中更具判别性,从而有利于训练一个鲁棒的PU分类器。具体地,上层问题是寻找当前数据分布(依赖于下层问题求得的投影矩阵)下最优的PU分类器(称之为学习阶段),而下层问题则是利用线性判别分析(依赖于上层问题求得的分类器给无标签数据分配伪标签)找出最佳的投影方向(称之为投影阶段)。这两层问题迭代解决、互相促进,最终建立一个鲁棒的PU分类器。此外,本文还从理论上分析了该算法的泛化能力,保证了DPU算法的有效性。
其他文献
超细高氯酸铵(AP)应用在推进剂中可以显著提高推进剂的燃速,但也会导致感度增加,降低其安全性。将超细AP与纳米燃烧催化剂和纳米降感剂复合可以加速超细AP的热分解,提高推进剂的燃速,又可以降低超细AP的感度。但是,纳米燃烧催化剂和纳米降感剂同时对超细AP的催化与降感研究尚不明确,无法为AP的催化热分解和降低感度提供科学指导。本文通过将纳米燃烧催化剂和纳米降感剂与超细AP进行复合,来研究其对超细AP的
TC11钛合金属于α+β型两相钛合金,具有良好的热强度、塑性、热稳定性和抗蠕变性能等综合力学性能,激光粉末床熔融(Laser Powder Bed Fusion,LPBF)技术是重要的激光增材制造技术之一。本文分析了工艺参数对LPBF成形TC11钛合金的熔道形貌、试样成形质量和拉伸试样力学性能等的影响规律,实现LPBF成形TC11钛合金的高密度和高性能,主要研究内容如下:(1)进行了TC11钛合金
智能车辆是集计算机科学、视觉传感、多信息融合、通讯、自动控制等技术于一体的高新技术融合体,凭借其在解决交通安全、提高道路通行效率等方面的优势,已经成为未来车辆研究前沿和汽车工业发展新方向。而轨迹跟踪控制技术是实现汽车智能化的关键技术之一,其直接受制于车辆底层执行机构的操纵能力,同时又与车辆的稳定性密切相关。现有轨迹跟踪策略在横、纵向协调控制以及车辆稳定性分析上存有不足,故本文研究目标是将智能车辆的
伴随伺服技术的高速发展,多电机驱动系统广泛地运用于各种工业生产过程。对于应用多电机驱动系统的装备,电机间的协调性能及电机系统的可靠性对产品质量和生产效率起着决定性作用。为提高多电机驱动系统在故障情况下的同步协调性能,本文以多台无刷直流电机组成的多电机同步协调控制系统为研究对象,针对逆变器故障问题,研究实用化的容错控制方法。本论文的主要研究内容包括:首先,在相邻交叉耦合控制结构下,提出一种基于容错协
学位
非晶态合金作为新兴的亚稳态材料,由于长程无序的特殊结构,使其具有许多优异的性能。本文基于脉冲电沉积技术进行非晶合金的能量状态调控,制备低能超稳态Ni-P非晶合金和高能态Ni-P、Co-P纳米非晶合金。通过X射线衍射分析、扫描电子显微镜、差式扫描量热仪、综合物性测量系统等测试技术对其进行了结构和性能的表征。主要研究内容包括:(1)采用电沉积技术制备低能超稳态非晶合金。基于传统单脉冲电沉积法制备非晶态
多文档摘要是自然语言处理领域的热点研究问题之一。相比从一篇文档中提取出一个摘要的单文档摘要而言,多文档摘要研究的是从多篇文档中提取出一个摘要,这个摘要是对多篇文档内容的高度总结,通过多文档摘要技术可以帮助人们在短时间内掌握多篇文档的主题内容信息。近年来单文档摘要以及多文档摘要技术逐渐被广泛地采用,而多文档摘要相比单文档摘要存在着算法复杂度高、摘要可读性差、摘要冗余度高等问题,因此研究具有高质量的多
本文针对高速列车用7N01铝合金材料,通过预时效处理设计不同溶质原子偏聚状态,优化后续形变热处理工艺,研究不同溶质原子偏聚状态与位错的交互作用及其对晶粒,组织以及合金强化机制的影响规律。主要研究结论如下:(1)自然时效和欠时效预设的溶质原子团簇和GP区,相比于峰值时效与过时效预设的亚稳相以及稳定相,在后续轧制过程中可以钉扎更多的位错,导致更强的加工硬化效果。(2)自然时效时间不同,合金偏聚状态不同
鲁棒主成分分析(Robust principal component analysis,RPCA)能够从一个数据矩阵中分离出一个低秩矩阵和一个稀疏矩阵,形成对特定应用的有效建模。该问题在实际工程中有着很广泛的应用,例如,视频分离,面部识别,图像对齐等。目前,相关研究学者已对鲁棒主成分分析问题进行了深入研究且提出了很多求解算法,例如邻近梯度法(PGM),交替方向乘子法(ADMM)及Frank-Wol
精确的天线测量技术是进行天线性能优化、设计高性能天线的必要手段。从天线近场测量技术的基本理论出发,对一种机载喇叭天线的近远场变换技术进行研究。采用模式展开法推导天线的平面波展开公式和探头补偿条件下的近远场天线耦合公式。针对近场测量中探头误差进行重点讨论,使用混合公式法对探头误差进行补偿,并对测试探头进行仿真分析,将仿真结果与公式法计算结果相比,进行误差计算。针对现有机载天线增益和相位中心的测量效率