基于数据清洗的深度人脸模型损失函数问题优化与研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:cooly88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人脸数据集规模的持续增长,科研人员们设计出了各种更快更强的人脸识别网络进行人脸识别,但是对于现有数据集中存在的噪声的来源和后果,人们仍然知之甚少。由于模型是依靠数据进行拟合的,数据的好坏将直接影响模型的最终结果。对于小规模的数据集,可以通过人工标注的方式对噪声进行清洗,但是面对大规模的数据集时,这些存在的问题将无法完全依靠人工来解决。并且清洗数据在一定程度上也会减小数据集的规模,为此,本文围绕着数据清洗和利用改进损失函数增强网络学习信息进行了深入的研究。提出了一种基于层次聚类的流式数据清洗方法,用于解决在实际场景遇到的问题。首先,本文针对不同种类的数据集存在的噪声问题进行详细分析。之后,从结构方面,本文将清洗方法设计成了流式结构,数据依次经过每一个清洗模块后,最终可得到干净的数据集。从内容方面,本文使用了层次聚类的思想,通过三层聚类的方式对数据集进行高精度清洗。提出了一种基于随机噪声的损失函数方法,解决了由于数据清洗导致的数据集规模减小的问题。首先,本文分析了噪声的可能组成形式。之后,对网络输出的人脸特征添加随机且微小的噪声,并利用LFW和YTF测试集对训练得到的模型进行评测。最后,通过实验得到了不同噪声组合下的模型准确率。实验证明,本文提出的清洗方法对噪声的召回率达到了99%,能够很好解决数据噪声的问题。基于随机高斯噪声的损失函数训练得到的模型在LFW和YTF上进行测试,准确率分别提高了0.15%和0.27%。
其他文献
大量软件服务不断涌现,在人们的工作和生活中发挥着愈来愈重要的作用,这些服务已经形成了一个服务生态系统。为了给用户提供良好的体验,在新需求出现或性能改进等动态演化的环境下,服务及服务生态系统会不断变化。由于服务间的变化会互相影响,可能造成竞争不充分的现象。因此,对演化机制进行研究以改善和调控生态系统,具有重要意义。本文提出了一个基于价值分析的服务生态系统演化模型。首先,针对软件服务生态系统的特点,给
从人们开始接触可视化领域,便知道,在可视化研究中,一个重要的目的便是为了将数据通过各种可视的方法展现出来,以便让人们更好地去理解和分析数据。在文本数据的可视化研究中,词云作为一种高效并且必要的方法经常被人们使用。在许多实际生活的应用中,一种常用的手段是用词云去表示一篇文档的语义以达到降低人们理解的难度,快速掌握中心思想并减少花费的时间的目的。所以,很多研究人员投入了大量的时间和精力,去研究词云,包
汉语普通话是中国的通用语言。据统计,截止到2018年,世界上已有超过一亿六千万的外国人正在学习汉语并且将汉语作为其生活和工作必备的一项技能。与此相比,从事于相关方向的专业的汉语老师数量的增长幅度已经远远不能满足国际社会对这一岗位的需求。另一方面,全世界也有大量的语言障碍者,在常人看来简单的对话对于他们来说却十分艰难,其中一大部分是由于舌运动障碍等原因导致发音不标准,不能正常发音等,如何在计算机的辅
统编语文教材系统融入了名著阅读的整体设计与思考。那么,如何对学生的名著阅读进行指导?特别是当阅读对象是外国科幻作品,阅读群体是农村初中学生的时候。去年,指导学生阅读《海底两万里》这部名著时,笔者要求学生自主阅读后,概括每章的情节,总结人物形象。结果发现,学生阅读的速度很慢,兴致不高。是不是学生普遍对这部名著不感兴趣呢?调查下来,却发现事实恰恰相反,许多学生很喜欢这部名著。那么,教师对学生名著
期刊
自从油画艺术传入中国以来,油画艺术一直在中西方文化自由碰撞的大环境下快速的发展着,也因此涌现出了诸多杰出的油画艺术家。在当下飞速发展的科技背景下,油画绘画艺术也将开启变革演化的发展,传统的美术馆平面展示形式也在信息技术高度发达的今天受到深刻地影响。通过将油画与新媒体技术相融合的实践探索来增强油画艺术的表现力与感染力,成为追求创新探索者共同关注的话题。本文通过对基于油画绘画再创作的沉浸式VR影像体验
目前多维和高维数据普遍存在于日常生活和科学研究中。多维数据的信息可视化一直是研究热点,多维数据的复杂性不仅体现在其维度高、数据规模大,还体现在维度间的相关关系复杂。因此分析多维数据维度之间的关联和模式,对多维数据的可视分析方法研究也有着重要意义。现在的维度分析方法大多将一个维度作为一个整体来分析,认为所有维度相关性是同一粒度的,但是在真实数据中,维度间的相关性可能是多尺度的。因此,本文将采用维度细
服务信誉是用户对服务的综合信任程度,客正公正的服务信誉有助于建立用户与服务间的信任关系并推动服务生态系统发展。研究人员通过用户评论构建信誉系统,获取服务信誉,减少用户与服务之间的信息不对称,提高用户对服务生态系统的信任程度,辅助用户决策。然而,由于用户评论的自发性,通过用户评论构建信誉系统,获取服务信誉时存在三个无法忽视的问题,即评论数据稀疏、恶意用户内容、服务信誉计算方法选取。为了计算服务信誉,
神经胶质瘤是成人脑肿瘤中最常见的一种,在原发性脑肿瘤中占据最高的死亡率和患病率。它们可以分为高等级神经胶质瘤(HGG)和低等级神经胶质瘤(LGG)。在本文的研究工作中,我们对于检测核磁共振成像图像(MRI)中的HGG和LGG等多种肿瘤结构提出了一种监督性的分割检测方法,该方法主要基于两种类型特征:梯度特征和上下文相关特征。梯度特征充分利用了二维梯度和三维梯度信息来捕获梯度变化。此外,我们还提出了一
随着移动设备的计算能力的不断进步,目前已经可以在移动端实现增强现实(AR)的特征检测特征匹配等复杂图像处理,但移动AR应用仍然面临很多问题。比如Mark图片与后台图片数据库的匹配速度慢,查询效率低等等。在本文中,本文提出了CloudAR,这是一种基于云架构的增强现实系统。本文详尽地探索了基于云架构的增强现实系统的设计,为了减轻移动端进行图像匹配作业的负担,将繁重的计算任务转移到云环境,由于现有的研
随着多核处理器的普及和移动互联网的蓬勃发展,并发程序变得越来越流行。而由于并发程序的复杂性,并发缺陷广泛存在与并发程序之中,并且已经在世界上带来了重大的经济损失和人身伤害。为了克服并发缺陷,提高并发程序的可靠性,研究人员与相关从业者已经在并发缺陷的暴露,检测,定位和修复上取得了巨大的进步,但依然存在一些棘手的问题没有解决。在并发缺陷定位方向,如何高效快速准确定位导致并发缺陷的根源依旧是个难题。尤其