无监督特征学习研究及其在图像去重中的应用

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:scutzq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督学习作为机器学习、数据挖掘等领域最主要的研究任务,一直受到工业界、学术界的密切关注。其主要特点是在学习算法的学习过程中,不依赖数据的真实结果参照,亦或是数据本身缺乏真实的结果参照,这在实际的数据采集场景下非常普遍。特征学习也是机器学习的一个热门研究领域,它研究的是如何从数据的原始特征集合中提取更适合于具体应用场景的特征表示,并期望替代原始特征集合以获得更好的预测性能。近年来,无监督特征学习经典算法拉普拉斯分数(Laplacian Score,LS)被提出,其利用方差能筛选出数据集较好的特征,避免了维数灾难而受到广泛的应用。然而,如何设置LS方法中高斯带宽λ成为了难题。针对LS方法不易设置高斯带宽λ的问题,本文结合了拉普拉斯分数和局部线性嵌入(Local Linear Embedding,LLE)算法,提出两种新型无监督特征学习方法,分别是邻域保持拉普拉斯分数(Neiborhood preserving Laplacian Score,NLS)和非负约束邻域保持拉普拉斯分数(Non-Negative constraint preserving Laplacian Score,NNLS)。NLS方法基于和LLE相同的假设,即任意样本可以被其邻域样本线性表出,并由此设计出新型的LS权重计算方法。进一步地,NNLS在NLS基础上添加了权重非负约束,这可以通过交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)算法求解。针对当前基于图像特征的两两匹配传统查重算法,在面对海量图像时运行效率缓慢且乏力的问题,本文提出了两种基于图像的hash指纹分块局部探测算法应用到大规模图像去重。一种是采用感知哈希(Perceptual Hash,pHash)算法,通过将pHash指纹分成若干个快,对候选的重复图像进行去重过滤。另一种方法是将pHash算法的离散余弦变换(Discrete Cosine Transform,DCT)替换为NLS或NNLS特征选择。两种算法均采用分治策略,使去重效率大大提高。此外,针对图像重复传递性问题,本文分别提出了传递与非传递两种策略。实验结果表明:1)NLS和NNLS的聚类精度在八个公共数据集上皆优于四种SOTA(State Of The Art)算法,即 Max Variance、Laplacian Score、Multi-Cluster Feature Selec-tion、Neighborhood Preserving Feature Selection;2)将分而治之策略应用于hash指纹,实现了海量图像的高效去重。采用NLS/NNLS生成的hash指纹和pHash指纹,对近3万张重复图像去重分别只需3分钟和2分钟,而传统算法去重时间花费超过5小时。
其他文献
HZL油田自2014年10月投产以来,开发中陆续面临很多问题:(1)ODP实施后,主力油藏L层含油面积变大,储量规模大幅度增加。L层储层厚度较薄(厚度6.8m-12.3m),储层空间非均质性很强(渗透率范围118-746×10-3μm2),储层展布和岩性边界存在不确定性,需通过评价井扩边探明。(2)生产动态上表现出油藏天然能量不足、地层压力下降快(目前单井的平均地层压力下降约9MPa)、产量递减明
学位
《民法典》第580条第2款规定了合同僵局中的司法解除,然而关于司法解除的适用条件存在争议,未能形成统一意见。在适用范围的问题上,适用《民法典》第580条第2款应先判断合同是否为商事合同,并将民事合同排除出适用范围。在规范要件的问题上,应当结合当事人的申请、合同无法履行、以及解除合同相当事由等要素判断是否应当解除合同。
期刊
渤海J油田为一复杂断块油田,但油田现场忽略了各区块地质油藏特征、不同开发阶段储层伤害类型的差异,使用单一修井液体系,难以满足油田储层保护需求,大部分油井修井作业后普遍表现出产能恢复率低、恢复周期长等问题。因此,评价不同井区、不同开发阶段修井过程中的伤害类型,研发有针对性的低伤害修井液体系,对于油田的持续稳产具有重要意义。本文通过铸体薄片、XRD等岩心分析技术评价了 J油田主力储层孔隙结构特征和矿物
学位
现阶段,市场环境多元,市场前景广阔但却变化多端,致使现代企业之间的竞争愈加激烈,机会与挑战并存,既迎来机遇,又面临挑战,且随着社会的发展变化,传统财务管理模式与社会发展不匹配,无法满足企业管理的需要,倒逼企业发展,需要企业探索新的模式,开辟新的管理道路,提升管理能力与水平。在此大背景下,精细化管理受到关注与重视,是企业发展的主要手段,在业财融合下,许多企业都推出了精细化财务管理举措,迎合市场大背景
期刊
随着互联网技术的发展,文本信息呈指数式增长,人们在文本信息处理和阅读中将花费大量时间和精力。关键短语技术是一种可以从文档中快速获取重要信息的方法,能在一定程度上缓解信息爆炸给人们带来的问题,并广泛地应用在了信息检索、文本分类、问答系统等任务中。关键短语技术按照短语的组成方法进行区分,可分为关键短语提取技术(方法)和关键短语生成技术(方法)。提取式方法通过评估原文中短语的重要性得分,从原文中提取出重
学位
目前安全作业备受各行各业关注,大多安全措施仍依赖于人工监察。随着深度学习技术的发展与成熟,相应目标检测算法的研究越来越多,安全帽佩戴检测系统也成为重要研究内容。基于深度学习的安全帽佩戴检测系统解决了传统安全帽佩戴检测系统中检测精度和速率低以及泛化性差等问题。已有的基于深度学习的安全帽佩戴检测系统使用的检测算法中仍存在IoU值相同而截取目标存在差异的问题、目标函数与评价指标不统一的问题、正负样本不均
学位
人工智能的迅速发展将深刻影响人类工业生产和社会生活的方方面面,发展人工智能技术已经被国务院列为国家战略。利用人工智能技术打造智慧城市、创造智慧生活成为了国家现代化发展的迫切需求。如今,利用计算机视觉的自动化技术已经被大量应用到了视频监控、工业自动化等诸多方面。作为计算机视觉技术领域的重要内容,群体计数在生活中有着非常广泛的应用场景,准确的估算出场景中的目标数量是该任务的关键。在人流量较大的车站,实
学位
传统推荐算法使用用户提供的评分来预测用户偏好,但此类算法推荐效果通常受到评分噪声的影响。此类噪声来自于用户随心情随意打分、某些商家通过恶意刷分来提高自己的收益等行为。随着电子商务的快速发展,用户除了可以对购买的商品进行评分以外,电商平台还提供了另一项重要的功能—为商品评论。对于用户评论进行情感分析能够有效地对评分进行去噪以获得细粒度的评分。针对上述问题,本文对推荐算法中最主流的矩阵分解进行研究,并
学位
带压作业操作复杂、施工风险高,因此石油企业需要培训大量专业技术人员来实现稳产、增产的目的。然而传统的培训方法受工况条件约束而培训效率低下。此外,油田现场施工对技术人员的能力要求很高,无法接纳新手开展实训。考虑以上问题,本文设计并实现了基于混合现实技术的带压作业图形系统。主要研究内容如下:1.研究基于分层置信传播(Hierarchical Belief Propagation,HBP)的立体匹配算法
学位
作为石油勘探开发的龙头,钻井作业具有高投入、高风险、劳动密集、野外、重体力、高空交叉的行业特点。在钻井作业的不同阶段和不同的环节中,均存在对人员、设施安全和生态环境等不同程度和不同形式的影响和危害。中国三大石油公司制定了安全生产事故隐患排查治理管理制度和操作规程定,但是,钻井作业事故仍未得到有效遏制。其原因往往在于钻井作业中的人、机、环、管等方面蕴含的事故隐患不能得到及时的排查、治理,从而导致事故
学位