基于核聚类的半监督模型误定问题的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:myloft9h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习是机器学习中重要的研究方向。众所周知,大量标记样本能够有助于提高学习器性能,但是收集大量标记样本是耗时耗力的,半监督学习能够将少量的有标记样本与大量的无标记样本混合在一起进行训练,因此受到了越来越多的关注。但是在现有大多数半监督学习方法中普遍存在这样一种情况,即当最初的假设模型与数据分布不匹配时,加入未标记数据进行学习反而会降低学习器的性能,我们将这种情况称之为模型误定。本论文将针对这个问题展开研究,主要研究工作如下:引入了权重系数弱化未标记数据的影响。模型假设与数据分布不匹配时,对未标记样本的预测结果是可信度不高的,加入这些样本相当于加入噪声数据,因此会降低学习器的性能。针对这个问题,本论文引入了一个权重系数来降低未标记数据对模型的影响。当模型误定的情况发生时,带权重系数的模型与不带权重系数的模型之间会有较大的差异。提出了一种模型误定的解决方法。本文提出的引入权重系数仅能部分降低未标记数据的影响,但并不能从根本上解决这个问题,因此本文提出一种判断并修正模型的方法。对于每次的生成模型,都需要判断是否与数据分布相匹配,若不匹配则需对模型进行修正,直到得到一个与数据分布相匹配的生成模型。模型判断是通过比较带权重系数的模型与不带权重系数的模型之间的差异,修正模型则是调整核聚类时的聚类个数。提出了一种基于核聚类的半监督学习方法。将核方法的思想引入聚类过程中,把样本从输入空间映射到核空间,在核空间中对未标记样本聚类,大量的未标记样本用来探明空间中数据分布密集的区域。根据半监督学习中聚类假设的思想,被聚在一个簇中的样本有较大概率属于同一个类别,将核聚类后得到的各聚类中心作为生成模型,得到的生成模型再经过模型判断后决定是否作为最终的生成模型。在数据集PASCAL VOC07和MIR Flickr上的实验结果表明,论文提出的基于核聚类的半监督学习方法具有较好的实验结果。
其他文献
手写文本行中的单词切分是研究笔迹文本图像研究中的重要内容。它在关键词语搜索,单词为整体的识别,字符切分等研究中必不可少的重要步骤。切分结果的好坏对后续的识别结果有
在立体视觉中,立体匹配是获得视差图的关键步骤。大多数立体匹配算法依赖于立体图像的颜色相似程度。对于颜色差异较明显的立体图像,立体匹配精度会有较大程度的下降和损失。
超宽带(Ultra-wideband,UWB)技术是解决近距离无线通信的备选方案之一,它具有低成本、低功耗及良好的时域分辨能力等优势。在低码率超宽带系统中,出于成本和功耗等因素的考虑
在大规模的清洁能源用以发电的趋势下,政府大力推广分布式电源规模化地接入电网当中。大量地随机性分布式电源并网对电网的电能质量及运行特性产生了巨大的影响,主动配电网应用主动控制的手段来挽救电网性能的恶化,与此同时,主动控制可以提高可再生能源利用效率。在上述情景下,配电网紧密依赖信息系统来完成控制过程,且分布式电源的波动性越大,电压管理的控制密度越高,对信息系统的依赖越强。一旦信息传输失效,必然会影响电
近年来,光纤通信作为一种主要的用来提升通信系统容量需求的技术,已在世界各地广泛的研究和开发。然而,随着互联网,在线游戏等各种数据业务的快速增长,光纤通信系统必须快速
在过去的数十年中,由于智能移动设备和先进移动多媒体服务的广泛应用,用户可以通过社交网络随时随地的上传图像。最近,更多的社交网络不仅收集图像,还收集一些和图像相关的用
本学术论文的目的是把握员工成就认知对员工建言的基础理解,以及雇佣者的认知如何影响员工表达的意愿。本研究的关联性有助于缩小公司内不同层级之间的差距。本研究现实意义
近几年来,随着无线通信技术、微电子技术的不断进步,无线传感网络得到了快速发展。然而,随着越来越多的WSN程序被部署到实际应用中,这些应用也常常因为软件质量问题而产生不
识别场所的个性化语义是普适计算的重要研究方向。现有方法的问题有:1)大多仅考虑场所访问在时间和空间上的信息,未充分利用与场所语义密切相关的情境信息;2)注重整体识别准
如今,人们对无线设备(如传感器,PDA,无线基站等)的需求在迅速增加而其价格在下降。因此,发展无线网络是至关重要的。由于基于IEEE 802.11的无线局域网(WLAN)的普及流行,人们