基于深度子空间聚类可靠自监督信息挖掘的研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:jtfcyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,人们需要对大量高维的数据进行处理。聚类作为一种无监督的机器学习方法,不管在生产实践还是理论研究的层面上都有重要的意义。对于聚类的研究已经发展了很长一段的时间,但早期提出的传统的聚类方法在应对海量高维数据时,其性能会受制于“维数灾难”的影响。针对高维数据所具有的特性,子空间聚类的思想应运而生。子空间聚类通过为高维数据探索若干个低维的线性子空间来避免“维数灾难”的影响,并针对数据特征可能是非线性的情况,提出了基于非线性方法的子空间聚类。近年来,深度学习技术因其强大的自适应特征提取能力而被广为应用于各种机器学习任务中,子空间聚类与深度学习框架的结合产生了许多有效的深度子空间聚类方法。深度子空间聚类在无监督聚类任务中取得了显著的性能。在此基础上,进一步地引入自监督方法来学习有鉴别能力的数据表示,可以提高聚类性能。尽管引入自监督学习机制的深度子空间聚类在聚类性能上有了显著的提高,但此类模型的学习效果在很大程度上依赖于当前聚类结果所提供的伪标签质量,当大量样本被分配到错误的伪标签时,不可避免地会降低模型聚类的性能。为了解决这一问题,本文提出了一种鲁棒的自监督深度子空间聚类方法,使得模型在训练中能够挖掘并利用可靠的自监督信息进行训练。具体来说,我们首先提出了一个基于图随机游走的扩散过程步骤来改善自表达矩阵的准确性,从而获得更准确的聚类结果(伪标签)。更重要的是,我们提出了一种离群值检测方法,来识别聚类结果中每个簇内部不正确的分配(伪标签),在网络训练过程中可以进一步缓解不可靠的自监督信息的影响。在几个基准数据集上的实验研究,验证了我们的方法在网络训练过程中发现并利用可靠的自监督信息方面的有效性。
其他文献
数字经济背景下,社区团购作为零售业的新形式受到消费者广泛欢迎,加之新冠疫情的爆发,使得社区团购进一步发展。传统的消费模式由于社区团购的出现发生了改变。在消费者的需求刺激和不同资本之间的投资下,使得团购市场的竞争日益激烈,且社区团购的发展十分不稳定,社区团购未来将如何发展仍是一个问题。面对众多风险的市场环境和竞争压力,消费者对社区团购平台满意程度十分重要。本文参考国内对社区团购的研究,调查消费者对社
学位
准确的碳排放预测可以为政府制定减排政策提供参考依据,在减缓全球变暖方面发挥着举足轻重的作用。本文首创性的应用了基于核方法的多元非线性灰色模型(KGM(1,N))来预测CO2排放量,但KGM(1,N)的不确定参数可能影响预测精度,很难保证建立的模型为适用全国及区域碳排放数据的最优模型,因此本文利用粒子群算法(PSO)优良的寻优能力对模型参数进行优化,以提高其预测性能和模型适用性。碳排放量数据受多因素
学位
图像分割一直是计算机视觉任务的一个重要部分,也是实现机器智能化和理解化的一个前提,在人脸识别,智能驾驶,医学影像等领域有着重要的意义。近年来随着深度神经网络发展,医学图像分割也取得了重大的进展。但是,深度神经网络的训练通常需要大量的数据和标注,由于医学数据的标注需要大量的临床专业知识和时间以及对于患者隐私问题的保护等原因,就导致数据与标注的代价昂贵且难以获取。目前很多方法对问题的解决都是基于有大量
学位
推荐系统早已被部署在了网络生活的各个领域中.在正常的交互场景下,用户实时产生的使用数据是非常稀疏的.传统的推荐算法由于模型搭建不够灵活,没有更深层的挖掘出用户的个人偏好与其过去浏览过的物品之间的关系.本文为了充分捕获用户与物品之间的潜在关联,采用经典的Word2vec方法挖掘用户行为序列中的信息.不仅应用在了代表用户喜好的物品序列中,并且创新的将其应用在了代表物品受众的用户序列中,由此获得初级的、
学位
由于安全、稳定、经济运行的优点,传统的办公固定电话终端仍然是很多企业实现办公人员内部通信的重要的通讯手段之一。IP语音通信技术发展多年,IP语音固定电话终端在市面上已经有很多应用场景。组建IP语音电话交换网是企业内部固定电话应用的优质选择。本文以在某企业汕尾分公司建设语音交换网为主要研究案例,在建设新行政IP语音交换网项目的基础上,分析、设计并实现了该分公司IP语音交换网的建设。提供了一套基于网内
学位
企业回报社会是扎实地推进共同富裕的组成部分,理解企业回报社会的决策机理具有重要的意义。构建“产权性质—政策不确定性—企业回报社会”框架,以2016年至2019年沪深A股上市公司的9 325个样本为研究对象,通过固定效应模型探究产权性质对企业回报社会的影响,以及政策不确定性在二者之间关系中的调节效应。结果表明:相较国有企业,民营企业回报社会的积极性有待提高;政策不确定性增强了民营企业回报社会的动机。
期刊
进入21世纪以来,随着社会经济的高速发展,人们的生活和工作压力逐渐增大,从而使得焦虑症、精神分裂症、癫痫等精神类疾病的发生率大大增加。抑郁症作为其中的一种,给患者以及家属的生活造成了严重的影响,所以急需针对该病寻找高效的诊断和治疗方法。目前医生的诊断方法大多是让患者做量表,并同时询问一些病人的情况,以此来对病人的状况做出大致的判断,然后再结合ICD-10抑郁症的诊断标准给出比较准确的结果。该方法严
学位
基于中国A股2014—2019年的样本数据,考察了财务报告问询函对投资效率的影响。研究发现,财务报告问询函会显著提升投资效率,且对非国有企业投资效率的影响更显著。进一步研究发现,财务报告问询函能够显著抑制投资过度,但不会显著抑制投资不足,机构投资者持股在财务报告问询函的上述影响中存在显著的正向调节效应。本文将财务报告问询函引入了投资效率的理论研究,为相关监管机构出具财务报告问询函与企业提升投资效率
期刊
随着现代科技的发展,机械设备在工业生产中广泛应用,故障率随着使用年限的增加而逐步提高,工业机器的健康监测以及异常检测对于生产安全保障具有极其重要的意义。传统的机器学习算法作为机器异常检测常用的方法,主要通过收集正常和异常声音数据提取数据特征,建立分类模型进行分类,实现对机器异常声音的检测。该方法主要存在两点不足:一是部分异常声音数据难以进行模拟制造和收集,二是模型对数据特征的学习有限,预测精度较低
学位
随着2019年冠状病毒(COVID-19)在全球范围内的传播引起恐慌,并对现有的医疗设施和治疗系统产生重大影响,公共卫生安全被各国政府视为重中之重。由于病毒可通过飞沫和空气在人际间传播,世界卫生组织(WHO)建议,为防止COVID-19病毒的扩散和传播,人们在外出近距离接触时应佩戴口罩。随着对佩戴口罩的需求越来越高,很多地方,尤其是火车站、机场等人流密集场所,口罩佩戴监测任务变得十分艰巨。但目前这
学位