半监督偏好学习的理论研究

来源 :烟台大学 | 被引量 : 0次 | 上传用户:houqiusheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
偏好学习是通过矩阵分解得到潜在特征,广泛应用于数据挖掘和机器学习领域。对于没有任何负项的数据集,非负矩阵分解(Non-negative Matrix Factorization,NMF)将两个非负矩阵相乘来寻找低秩近似。近年来也提出了许多正则化的NMF,但是,仍然存在一些问题:一是由于一些数据中存在噪声和异常值,传统的方法容易产生误差较大的目标函数;二是在加入图正则约束时,计算相似度矩阵邻居关系都是确定的,一旦计算错误就会导致构造的图质量低,进而影响结果性能;三是传统的方法没有充分使用标签信息来指导构建相似矩阵。基于上述提出的问题,本文提出带有l2,1、l1范数和自适应图正则化的偏好学习算法用于聚类,进而加入半监督信息来指导构建相似矩阵。本文具体工作如下:
  首先,现在大多数据中存在噪声和异常值,这些数据进入目标函数时都带有误差,所以容易出现少数误差较大的噪声和异常值控制目标函数。本文提出了带有拉普拉斯调节的偏好学习算法。利用矩阵低秩分解来获取潜在偏好特征,从而实现偏好学习,加入图正则提高聚类精度,利用l2,1范数对目标函数调节,从而解决异常值问题。利用l1范数解决稀疏噪声问题。在几个常用的聚类数据集上进行实验,实验证明,本文的方法优于一些经典的聚类方法。
  其次,基于图正则的聚类方法通过使用描述数据关系的相似图将数据样本划分为不相交的组。提前构造相似图,一旦出现错误,无法改变,会导致构造的图质量较低。本文提出了一种带有自适应图正则化的偏好学习模型,因引入l1范数和l2,1范数既能解决稀疏噪声问题又能解决异常值问题,更重要的是,在上一工作基础上将自适应图正则化引入以提高聚类性能。在人脸图像,手写识别,UCI和生物等四个应用场景的14个数据集上的实验结果,阐述了该方法相对于7种现有经典聚类方法的优越性。实验结果表明,在ACC和Purity中实现了更好的聚类性能。
  最后,针对传统聚类没有利用标签信息指导相似矩阵的构建问题,本文提出了一种基于高斯场及谐波函数的半监督偏好学习算法。在上一工作对数据噪声和异常值不敏感和加入自适应图正则提高了聚类性能的基础上,该方法通过高斯场及谐波函数法引入监督信息指导构建相似度矩阵实现半监督学习。为了解决聚类问题的优化目标,提出了一种迭代更新算法–增广拉格朗日法(Augmented Lagrangian Method,ALM),分别对优化变量进行更新。在4个数据集上进行实验,实验结果表明,该方法优于相比较的7种经典聚类方法,获得了更好的聚类性能。
  综上所述,引入标签信息和自适应图正则的半监督聚类,不仅对噪声和异常值不敏感,而且聚类结果得到了很大的提升。相比较于前两种基于图拉普拉斯和自适应图图正则的算法,引入了标签信息和自适应图正则的半监督聚类效果更好。
其他文献
随着智能手机和短视频平台的快速发展与普及,每人拥有一部手机已经成为理所应当的事情,人们已经可以随时随地拍摄视频,甚至是随时随地将视频上传至网络。短视频平台的快速发展更是加快了视频信息的传播,但是个人视频拍摄、上传与公开的便利性同时也会带来不利的方面,比如含有违法内容的视频将成倍的增加。并且违法视频的发布者通常利用网络对使用者隐私保护的机制,匿名作案,这就给法医取证带来了极大的困难。因此,多媒体数据
目标跟踪是根据视频图像序列上下文信息,对第一帧中的目标进行定位并建模处理,进而在后续帧中进行连续跟踪的任务。目标跟踪在智能交通监管、公共安全监控、自动驾驶等领域具有重要用途。深度学习相关方法的出现,为目标跟踪的研究提供了更多选择。尽管近些年很多新算法在目标跟踪问题上取得了巨大的进步,但复杂背景、光照变化、遮挡、形变等仍然是影响目标跟踪精度和准确度的主要因素。近年来,基于深度学习方法的目标跟踪算法在
学位
文本匹配是指从语义或意图层面衡量两个文本的相似程度。文本匹配任务属于自然语言处理的基础性研究,其效果对文本蕴涵、自动问答、信息检索等诸多下游任务具有重要影响。传统的文本匹配方法通常依赖于文本的字面特征以及人工定义的规则衡量文本是否匹配,忽视了文本间的深层次语义匹配特征。与传统文本匹配方法相比,深度学习方法能够有效捕获文本的深层次语义特征,具有良好的模型泛化能力,在文本匹配任务上具有出色的表现。文本
学位
心电图(Electrocardiogram,ECG)是诊断心脏疾病安全有效且快捷的方法,同时ECG是用于心脏疾病检测、分类和治疗的重要指标。因此,高效准确地去除ECG中的噪声对心脏疾病的辅助诊疗有着重要意义。在此背景下,本文将结合心电信号的稀疏特性,采用神经网络方法深入研究心电信号的降噪问题。本文主要的创新点将从以下三方面展现。(1)针对传统的基于滤波器的降噪方法对信号的适用性不强的问题,本文提出
学位
据统计,我国已建成全球规模最大的供暖管网。通常管道经过闲置可能出现老化、锈蚀,导致管口渗水。供暖面积的增加,对管道检修带来挑战。针对供热管道来说,依赖管道机器人的检测方法,只能工作于非供暖时段,在供暖季节无法运行。红外无损检测通过采集并将红外线辐射转换为二维图像的方式,不触碰和破坏被测物体,通过红外图像直观反映物体的温度分布情况。本文以红外无损检测技术为基础,结合成熟的无人机技术,使用数字图像处理
学位
随着智能制造工业领域的飞速发展,设备发生故障的现象无法避免,同时也带来了巨大的经济损失,因此对工业设备故障进行快速而准确的判断具有重大意义。由于工业设备多数故障信息具有模糊性且故障源的判断易受多种因素的影响,而具有灵活转换特点的三角模糊数可对故障信息进行准确描述,它相应的决策方法也可对故障诊断问题进行全面分析,故面向故障诊断的三角模糊数决策方法是一个值得探索的研究方向,且具有较强的应用性。本文主要
学位
心脏病始终是人类健康的“头号杀手”。心电信号反映了心脏的收缩和舒张,是分析人体健康状况的重要依据。近年来涌现了大量利用人工智能技术来分析心电信号的研究,用于辅助心脏病的诊断。这在一定程度上为医疗工作者减轻了工作压力,提升了工作效率。然而,心脏病患者的情况是十分复杂的,特别是在突发紧急情况下,单纯的心电信号分析研究不能满足患者实时心率监测的需求。为此,应用边缘智能技术实时监测患者的心率情况成为一种新
学位
大数据时代,推荐系统在对抗信息过载问题上起到了重要作用。传统的协同过滤推荐算法仅利用交互信息进行建模,由于可供模型训练的数据种类单一、信息不足,可能导致推荐效果不佳,因此,许多工作将文本作为辅助信息引入到推荐模型中以提供额外的数据输入。但是,现有的基于文本的推荐方法往往忽略了用户的多样性偏好(用户的偏好特征会随着面对的项目不同而改变),或是没有在建模过程中充分利用输入的文本信息。针对上述问题,本文
学位
基于效用的序列规则挖掘能够挖掘出效用价值高的序列规则,被广泛的应用于金融、生物医学、制造业、电子商务、社交媒体等领域。与高效用正序列规则挖掘相比,高效用负序列规则挖掘还考虑了未发生事件,能提供更加全面的决策信息。目前的高效用正序列规则挖掘方法并不能直接用于高效用负序列规则挖掘,因高效用负序列规则挖掘过程中存在很多内在复杂性问题:(1)如何定义高效用负序列规则挖掘的问题。(2)如何计算高效用负序列规
学位
暗网构建在公共网络之上,需要特殊的软件、配置或者认证才能访问,相对传统的互联网网络,暗网具有匿名性强、溯源难、动态性高等特点。暗网建立的初期目的是保护互联网用户的通信隐私,但现在的暗网中存在着大量违反法律的信息,不法分子在暗网中从事非法活动,暗网已经严重威胁了网络空间安全。暗网之所以对网络空间安全构成一大威胁,很大原因是因为它难以实现追踪溯源,能够实现对暗网的追踪溯源,将可以对暗网中的非法行为起到
学位