有限且非完美的标签学习

来源 :浙江大学 | 被引量 : 0次 | 上传用户:funwoods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类算法是一种重要的机器学习数据挖掘技术,而训练集的选取对于分类函数或模型的建立起到了非常关键的作用。在现实中,带标签的训练数据往往很难获得,即使是已标注的数据,也往往包含漏标和错标的标签,这些都会影响到分类算法的训练学习过程。本论文深入分析了分类算法训练集可能出现的各种问题,在研究国际上大量经典分类算法的基础上,提出了多种基于生成式模型和基于判别式分类器的算法,通过利用未标注数据空间,多标签空间,和多视图空间中的信息来解决训练集已标注数据不足和已标注数据标签非完美的问题。论文的主要工作和创新之处在于:1.提出了一种基于分层狄利克雷过程的生成式模型,以解决多标签分类中存在的不完整标注问题。该统计模型充分利用训练集中已标注标签的信息,通过迭代更新训练集中的不完整标签,在学习过程中不断的增强标签和样本特征之间的关联性,既能对训练集中存在的不完整标注样本进行标签补全,又能对新的完全未标注的样本进行准确的标签预测。2.提出了多种判别式分类器,可以同时利用训练集样本所包含的所有标签信息,以解决多标签分类中存在的噪声标注问题。该类判别式分类器将样本包含的标签信息看作为一种额外的特征,利用在多标签空间中定义的一种充分考虑标签关系的距离度量方式,得到了训练样本点在多标签空间中的邻域,并将这种邻域信息应用到分类器的学习过程中,以降低噪声对于训练过程的影响,提高分类准确度。3.提出了一种基于判别式分类器的学习框架,可以解决多标签分类中存在的不完整标注问题和噪声标注问题。该算法框架通过给训练集中的样本添加不同的权重来反应出它们对于类别的代表价值和对于训练学习过程的帮助程度,结合利用跨媒体多视图中存在的信息互补性不断更新这些权重,同时利用多标签空间中包含的信息,既能用来专门对训练集中的不完整标签进行补全,又能用来对训练集中的噪声标签进行降噪。4.提出了一种判别式分类方法,以解决多标签分类中存在的训练集已标注数据有限且有噪声的问题。该分类方法可以学习出与已标注数据空间互补的未标注数据空间,并将训练集中已标注数据投影到这个互补空间中,作为额外的数据特征在训练过程中加以利用,以解决训练集已标注数据有限的问题。同时能够通过多标签邻域约束,利用多标签空间中包含的信息对训练集中存在的噪声标签进行降噪。
其他文献
世界中医药大会第四届夏季峰会昨日在昌落下帷幕。据悉,此次南昌峰会层次之高、规模之大、影响之广均创历届之最。大会以“中医药国际化新时代、新机遇、新挑战”为主题,吸引全
报纸
高速公路因其高效的通行能力,成为人们出行时的首选。随着高速公路的快速发展,道路交通安全问题日趋突出。如何管好、用好高速公路?结合自己的工作,笔者认为,现阶段做好高速
报纸
高等植物的光系统Ⅱ蛋白在环境胁迫,尤其是强光和高温胁迫时会发生可逆磷酸化。本文介绍环境调节下的高等植物光系统Ⅱ蛋白D1、LHCⅡ、CP29及TSP9的可逆磷酸化研究进展,并讨
结合头屯河水资源开发情况与流域的水生生态现状,对流域内水利工程的开发建设将产生的影响进行预测:工程建设将会引发河道水文情势和下泄水温变化,进而对鱼类产生较大的影响;
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨糖尿病患者自主神经功能。方法对85例糖尿病组与50例正常组进行心率变异性时域分析。结果(1)糖尿病组与对照组各项指标显著降低,差异有统计学意义(P〈0.01)。(2)女性糖尿病组
心包积液是临床急重症,常规心包穿刺术是较具难度和风险的临床操作技术.我院通过改进心包积液穿刺引流临床操作技术,使心包穿刺的操作更加方便和安全.
介绍气象影视服务为经济社会服务的思路。
会计电算化大大提高了会计信息处理的速度和准确性,有助于加强企业管理,提高竞争力,是会计发展的历史性飞跃。该文分析了目前在会计电算化实践中存在的问题,同时也提出了加强和完
对分数阶微分算子S^r(r∈R)的离散化是分数阶控制系统数字化实现的关键所在,不同的离散化方法有其各自的优缺点和适用范围,通过实例仿真,对常用的几种离散化方法进行了详细的分析