弱监督偏标记学习算法研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:shizhijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的监督学习要求训练数据具有准确完备的标记信息,虽然监督学习在各类应用上取得了不错的效果,但是精确标注每个示例通常是困难且代价昂贵的。无监督学习使用没有标记的数据进行训练,不需要强监督信息,但是由于完全失去标记的指引,无监督学习的过程较为复杂且效果较难量化。弱监督学习使用标注不太精确的数据来构建预测模型,这种数据广泛存在于网络中,获取较易且更符合现实场景,因此受到了广泛关注。偏标记学习是弱监督学习框架中的一个重要分支,近年来成为热门研究方向。偏标记数据集中的每个示例与一组候选标记相关联,其中有且仅有一个标记是真实的,偏标记学习的目标是根据此数据集学习一个多类分类器。偏标记学习的难点主要有三方面:一是真实标记隐藏在候选标记集中,不能被算法直接获取利用;二是数据的特征空间通常存在噪声,会对模型产生负面影响;三是样本特征空间和标记空间之间的关系难以充分利用。基于以上分析,本文围绕偏标记学习展开深入研究,并提出以下两个创新点。为了更准确地揭示数据的内在流形结构,提出了一种融合先验知识的自适应图模型偏标记学习算法。该算法利用融合了先验标记知识的自适应图模型来构建更鲁棒的示例关系,并实现了更好的标记消歧性能。首先,利用标记空间的杰卡德相似系数来有效过滤k近邻中的不可靠示例,保证不共享任何公共候选标记的两个示例属于不同的类别。其次,融合了以上先验标记知识的自适应图模型同时优化相似度矩阵和标记置信度矩阵,更稳健地揭示了示例的内部结构。此外,考虑每个示例只有一个候选标记是真实的,判别项很好地保证了候选标记之间的互斥关系,扩大了可能标记和不太可能标记之间的差异。最后,多种数据集上的对比实验表明,该算法相对于其他现有算法具有优越性。为了消除数据中特征噪声和冗余标记信息的影响,提出了一种考虑噪声特征的偏标记学习算法,通过同时考虑噪声边信息和其他候选标记的贡献来提升消歧性能。首先,该算法引入一个低秩矩阵恢复模型来消除特征空间的噪声,利用自身线性重构原理将原始的特征矩阵分解为一个低秩的理想特征矩阵和一个稀疏的噪声特征矩阵,降低了特征噪声对算法的影响。其次,该算法引入标记置信度矩阵和潜在标记分布来强调其他候选标记的不同作用。考虑到特征空间中相似的示例倾向于拥有相似的标记空间,因此利用流形假设原理来探索理想特征矩阵与标记置信度矩阵的一致性,从而消除标记空间的冗余信息,识别出真实标记。最后,多种数据集上的对比实验表明,该算法具有很好的消歧效果。
其他文献
以审判为中心制度改革要求实质庭审的落实,其中证人出庭质证作为构建实质庭审的重要组成,带动了对诉讼程序中证人的关注。现行《中华人民共和国刑事诉讼法(2018修正)》关于证人保护的条文较为宽泛,保护的范围相对局限,具体适用措施尚可进一步发展。参考域内外实践发展的趋势,证人保护制度的完善多从三个方面切入,其一是从事后的救济性保障向事前的预防性保护转变;其二是从传统人身财产权益的保护向人格权益的保护扩充;
学位
《民法典》580条第2款规定了违约方解除合同的权利以解决实践中出现的合同僵局问题。但由于学界对于该项权利的存在必要性一直存在争议,该规定即便入典成功,也仍存在一系列适用上的问题。本文遵从法教义学原理,试图以解释论的方式来构建违约方解除权规则,为其运行扫清障碍。文章引言主要内容是引出违约方解除合同权利的规定与其所带来的问题。第二部分介绍了违约方解除合同的权利规定从原《合同法》到《民法典》最终成文的条
学位
从唯物史观的基本原理来看,人类社会的发展与变迁就是广义上的社会革命。历史上,无论是俄国、英国、法国,还是中国,每一个国家的社会形态变革都伴随着社会革命。在社会发展变迁中,社会革命起着直接推动作用。马克思主义经典作家在探索社会革命的过程中,既展现了作为理论家对时代问题的敏锐捕捉,也呈现了对世界无产阶级运动规律的有效把握,继而实现了理论探索史与实践印证史的有效结合。而马克思社会革命思想作为马克思主义社
学位
基于视觉的同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)是机器人感知环境的重要方法。基于特征的视觉SLAM虽然可以较好的估计相机的位置和姿态,但随着时间的推移会产生较大的累积误差。绝大多数人造环境中包含曼哈顿世界坐标系,曼哈顿世界坐标系不随相机的运动发生变化,因此可以用于全局约束SLAM系统的方向估计。鉴于此,本文提出一种基于曼哈顿世界假
学位
近年来随着电气化轨道交通技术快速发展,强电与弱电设备配合工作的方式在轨道交通系统中得到越来越广泛地应用,使得轨旁信号设备的工作电磁环境日益复杂,从而信号设备的电磁兼容性成为轨道交通系统安全可靠运行的关键影响因素。为了对设备进行正确有效的电磁兼容性评估,需要开展准确严格的电磁兼容性试验,并结合使用电磁场仿真的方法来分析。然而,当考虑列车动态运行条件下时,实验室试验和电磁场仿真的方法难以灵活考虑影响设
学位
2020年初爆发的新冠疫情对世界造成了重大的影响,习近平总书记也非常重视社区防控的作用,提倡群防群控的指挥,侧重城乡社区的防控和患者治疗两大模块,坚决阻挡疫情对外扩散,阻断对外输出的路径。疫情期间,社区作为最直接最一线的组织,在防疫过程中是非常关键的一环,这也是疫情防控工作的重点工作。2020年的新冠疫情冲击同样暴露出我国公共卫生社区治理问题中的缺陷,这一事件为我国公共卫生防控体系提出了新的要求,
学位
软法一直以来都在国际商事仲裁的程序治理中占据着重要的席位。各类仲裁规则、程序指南等软法,常常作为某一领域的“最佳实践”,以制定低成本、高效率的优势,为当事人实现争议的解决提供了选择。软法在国际商事仲裁中的重要地位和作用是无可置疑的,但同时也不能因对软法过于乐观的态度而对其产生过高的估计,从而忽视了软法的本质和其在制定、适用过程中存在的问题。通过对国际商事仲裁中软法的效力及效用的体现、适用的途径和适
学位
2019年底爆发的新型冠状病毒肺炎疫情其蔓延速度之快、影响范围之广,对全球人民生命安全产生严重威胁,已构成全球性“大流行”,此次疫情也是对我国国家治理能力与应急管理能力的一次大考。我国城市社区应急管理能力在近几年得到了很大的提升,但相较之下我国农村地区重大疫情应急管理能力仍十分薄弱,此次疫情暴露出了我国农村应急管理体系仍存在着诸多短板,但同时也是其进一步发展完善的难得契机。网格化管理作为一种创新化
学位
联邦学习是一种新颖的分布式隐私保护机器学习方案,能够解决传统中心化机器学习方案受到法律法规限制无法进一步收集用户隐私数据的问题。联邦学习通过聚合模型而不是聚合数据的方式在一定程度上保护了用户数据的隐私性。但是目前的聚合方案都存在一些缺陷:直接聚合的方式具有安全隐患,会泄露关于用户数据的敏感信息;基于同态加密聚合的方式需要巨大的计算成本;基于安全多方计算聚合的方式具有鲁棒性差、通信成本高的问题。本文
学位
党的十八大以来,高校思想政治教育受到了前所未有的关注和重视,在召开的多个座谈会和工作会议中,习近平同志对高校思想政治教育工作进行了安排部署和深刻阐释,对青年特别是高校大学生青年群体的成长成才提出了一系列新思想、新观点和新要求。经过近十年的研究和探索,我国高校思想政治教育工作在理论和实践上不断提质增效,成果斐然。然而,面对新形势新发展,高校思想政治教育在迎来新机遇的同时也面临着种种新挑战,高校思想政
学位