基于候选标记感知和稀疏重构的偏标记学习算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:ngnza
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
偏标记学习作为一种弱监督机器学习框架,其目标是从每个训练示例对应一组候选标记集合的数据中学习一个多分类模型,其中候选标记集合中只有一个是真实标记且不能在训练阶段直接获取。从带有模糊标记信息的偏标记数据中学习的关键就是消除候选标记集合的歧义。现有的偏标记学习算法在计算示例相似度时,往往只针对特征空间,很少考虑利用候选标记空间的信息来辅助构造示例之间的相似关系。并且在消歧过程中,很少考虑候选标记不同置信度水平和特征空间中潜在的结构信息对标记消歧的促进作用,这些都将导致信息利用不充分且模型泛化性能不佳。因此,本文从以下两个方面来研究:(1)为充分利用训练示例的特征空间和标记空间信息,本文提出了一种基于候选标记感知和标记传播的偏标记学习算法。首先,该算法为了更加全面的刻画示例间的关系,在构建训练示例的相似矩阵时,考虑了包含相同候选标记的训练样本之间应该具有更高的相似性这一假设。然后,通过迭代标记传播策略获得消歧后的归一化标记置信度。最后,利用多输出支持向量回归来归纳分类模型。同时,在模型生成过程中,该算法充分考虑了每个示例的偏标记损失,以提高模型的预测精度。(2)为充分利用示例特征空间潜在的信息和不同候选标记的置信度水平对标记消歧的促进作用,本文提出了一种基于稀疏流形消歧的偏标记学习算法,该算法利用特征空间的结构信息促进标记的消歧过程。首先,通过对训练样本进行稀疏重构来刻画特征空间的底层结构,并基于流形假设将底层结构信息融入到标记消歧过程中。然后,将不同的候选标记置信度形式化为隐藏的标记分布,并提出了一个能够同时实现标记消歧和预测模型训练的方法。最后,标记置信度矩阵和分类模型通过交替迭代的方式优化。本文在5个人工合成的UCI数据集和6个真实数据集上进行了大量实验,清楚地验证了提出的两个算法比多个现有的偏标记学习算法取得了更好的分类性能。
其他文献
秘密图像共享作为秘密共享的一个分支,可以在一组参与者之间安全的共享秘密图像。传统的秘密图像共享方案引入门限结构,结构简单但灵活性相对不足。为了拓展方案的功能,视觉密码,加权秘密图像共享和具有核心参与者的秘密图像共享等方案被提出,但这些方案都存在种种不足,例如视觉密码方案仅适用于二进制图像,并且可拓展性有限,尤其是存在像素拓展问题;加权秘密图像共享和具有核心参与者的秘密图像共享方案仅支持简单的访问策
学位
剪接是DNA转录为RNA的关键步骤,它高度调控着生物遗传信息的传递过程。剪接位点是DNA剪接过程中的识别靶点,对剪接位点展开相关研究不仅有助于理解复杂的剪接机制、丰富和完善DNA序列注释,还为下游RNA的分析奠定基础,因此,对剪接位点的识别是转录组研究的热点和难点。然而,现有的剪接位点识别方法中存在不少缺陷。例如,基于传统机器学习的预测方法存在需要依赖专家手动提取和选择特征、特征输入维度过大以及样
学位
背景和目的溃疡性结肠炎(Ulcerative Colitis,UC)是临床较常见的一种炎症性肠病,存在病情易反复发作、药物不良反应多等问题。新近研究发现肠道菌群代谢产物短链脂肪酸(Short-chain Fatty Acids,SCFAs),可诱导3型固有淋巴细胞(ILC3s)的子集NCR+ILC3分化并分泌相关细胞因子IL-22,对维持肠黏膜屏障稳态具有重要作用。近来,国内外UC患者越来越多地考
学位
对赌协议的效力从产生之初就饱受争议。《全国法院民商事审判工作会议纪要》(以下简称《九民纪要》)引入效力区分原则将对赌协议的效力和目标公司的股权回购进行分别判断,即股权回购能否实际履行不影响对赌协议的效力,从而确定对赌协议有效,由此法院裁判对赌协议纠纷的思路便从判断合同的有效性转为协议的可履行性。然而,囿于《公司法》禁止股东抽逃出资、股权回购须具法定事由,以及体现资本维持原则的诸多强制性规定,导致对
期刊
动作识别是计算机视觉领域一个具有代表性的研究方向,在智能监控、人机交互、智慧医疗等领域具有潜在的应用价值。动作识别的关键任务是提取视频中人体动作的运动特征,然而视频中动作差异较大、速度不一,如何有效地表征其运动信息仍然是学者们的一个研究难点。传统的手工设计特征方法工作难度大且识别率较低,基于深度学习的方法能够充分挖掘视频中的特征信息,快速预测视频中的动作类别,但目前仍存在着识别率不高、计算代价大的
学位
人体骨骼肌通过收缩带动骨骼运动,将其功能性信息嵌入人体形态框架,构建骨骼肌数字孪生体进行骨骼肌物理及生理功能模拟,对“虚拟生理人”研究具有重要意义。本文结合国内外的相关文献,首先归纳总结了骨骼肌数字孪生体构建技术构架,然后分别从骨骼肌数字孪生体建模技术、数据采集技术、仿真分析技术、仿真平台、人体医学图像数据库五个方面进行综述。在此基础上,本文指出还需要在骨骼肌模型泛化、精度提升、模型耦合等方面进行
期刊
核辐射监测是核安全的重中之重,但辐射环境监测站只是对核工业过程进行状态监测,对于关键核素的预测目前主要依赖于人工方式,准确性和实时性较差,基于数据驱动的方法或许能够有效改善这一情况;但是常规循环神经网络模型在对工业时序数据进行预测时收敛速度很慢,且不能根据实时数据及时地对模型参数进行动态调整。因此,本文针对以上缺陷,提出了一种新颖的Momentum-GRU模型,通过在GRU模型中加入可学习的动量项
会议
目的本研究采用Tee Tester数字化咬合系统,分析无症状的偏侧咀嚼者和伴颞下颌关节紊乱病(Temporomandibular disorders,TMD)症状的偏侧咀嚼者的咬合特点,为临床上偏侧咀嚼相关的TMD的诊治提供新的思路。方法1.根据调查问卷和口腔检查筛查出60名受试者,分为三组,偏侧咀嚼者40名(左侧20名,右侧20名),对照组(非偏侧咀嚼者20名)。采用Tee Tester数字化咬
学位
随着互联网在我国的迅速发展和高速普及,信息过载使得人们在获取自己感兴趣的内容时面临严峻的挑战。而推荐系统的兴起,它不仅能提高用户黏性和用户忠诚度,而且还能通过用户属性信息以及用户的历史交互行为信息来学习用户潜在的兴趣偏好,这可以帮助用户节约筛选信息的时间,提升用户购物体验以及缓解用户在购物过程中的信息过载问题。一般而言,经典的传统推荐算法只会考虑用户和商品的历史交互行为信息,而往往会忽略在真实的推
学位
在大数据时代,数据通常以高速和不断变化的形式生成。在实际应用场景中,数据通常以无标签的形式存在。数据量大且形式多种多样的特性使得人类专家不可能在有限的时间内为每一个样本打上正确的标签。与此同时,标记所有样本非常耗时且成本昂贵,有时甚至非必要。因此,半监督学习技术非常适合处理这些数据。然而,由于数据不断变化的特性使得样本服从同分布这一假设在实际应用场景很难得到满足。分布不同的数据间却有着相关性,我们
学位