离群点鲁棒的图像数据降维方法

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:whg_2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前的图像处理算法大部分都是面向图像数据的向量表达形式。然而,图像数据的向量表示既破坏了图像的内在结构信息,也导致向量化后的数据因为维度过高而引发维度灾难,进而增加存储、传输成本,更使算法的运算效率急剧下降。因此,如何降低图像数据的维度,从数据中获取更多的有效信息,一直是人们非常关注的问题。PLDA和LPP是两种著名的降维方法,它们在度量样本间的误差时都使用平方L2范数,这一度量对有高斯分布特性噪声的图像降维取得了良好的效果。但现实中采集的图像数据噪声分布比较复杂,有些情况下平方L2范数会表现异常,例如,当图像中存在离群点时,平方L2范数会放大离群点的作用,使训练出的投影方向偏向离群点,不利于找到正确的投影矩阵。为了解决降维算法中的平方L2范数对离群点敏感的问题,本文从以下几点对这两种降维算法进行改进:1)针对处理离群点时,L1范数比平方L2范数稳定的特点,提出了基于L1范数的概率LDA降维方法,以避免样本中的离群点被L2范数过分夸大,从而学习出更鲁棒的投影矩阵;2)为了避免图像数据向量化破坏数据空间结构的问题,提出了基于L1范数的2D概率LDA降维方法;3)对于LPP降维方法,针对F范数比平方L2范数对离群点鲁棒的特点,提出了基于F范数的LPP图像降维方法。具体地,本文的工作主要包括以下几个方面:(1)针对平方L2范数的降维方法对离群点敏感的问题,提出了L1范数的概率线性判别分析方法(L1-PLDA)。L1-PLDA是一种概率线性降维方法,数据由隐变量和噪声产生,并假设噪声服从拉普拉斯分布。拉普拉斯分布使用L1范数衡量,对离群点鲁棒。由于L1范数不可导,本文将拉普拉斯分布扩展成无数个高斯分布加权求和的形式,并利用变分EM算法对模型求解。在多个公共数据库上,用L1-PLDA模型检测图像中是否存在离群点以及离群点的位置和分类实验都取得了令人满意的结果。(2)针对输入数据是向量表示形式存在的问题,在L1-PLDA的基础上提出了基于L1范数的二维概率线性判别分析降维模型(L1-2DPLDA),该模型直接对二维图像数据进行双向降维,避免了向量化过程中破坏数据空间结构信息的问题;同时由于是基于L1范数的误差度量,对离群点鲁棒。在模型训练阶段,由于采用了矩阵的表示形式,减少了降维矩阵中参数数量,提高了训练速度。在多个公共数据库中的重构和分类实验验证了模型的有效性。(3)针对LPP降维方法,提出了F范数的局部保持投影方法(F-LPP)。传统LPP是具有局部保持特性的非线性降维方法,为了能对带有离群点的样本鲁棒降维,本文对传统LPP进行了改进,提出了基于F范数的局部保持降维模型F-LPP。为了求解F范数的目标函数,我们采用了交替迭代法。为了保持图像数据的内部空间结构信息,我们也将F-LPP扩展至二维数据。在多个数据库中的鲁棒检测实验和分类实验来检测模型的性能。
其他文献
随着科技的迅猛发展,不同类型的应用场景以及用户规模不断增多,网络的发展逐渐由技术驱动变成了应用驱动。多元化的应用场景也产生了多样化的QoS需求,传统网络架构下的QoS保
面对互联网和大数据时代的来临,数据挖掘对人们生活的影响越来越大。关联规则挖掘作为其关键部分,可以通过各种算法从海量数据中找出隐藏在其中的相关信息。找到所有频繁项集
中国企业在海外承包国际工程项目的规模越来越大,承包的工程项目遍布世界各地,国际工程项目面临的不确定性和复杂性增加。在风险管理方面,中国企业在国际承包市场处于起步阶
核方法因其良好的表达能力和非线性映射等优点,成为机器学习算法中一种有效的工具,其中最具代表性的应用为支持向量机方法(Support Vector Machine,SVM)。受限于传统的统计学
随着人们对保健、养生需求的日益增长,“药食同源”原材料在食品、药品、保健食品中的应用越来越广泛,这些“药食同源”原材料在药品、保健品尤其是食品生产行业的质量控制水平便成为一个重要的课题。本文分别建立了测定黄芪、桔梗、山药中主要活性成分相对经济、快速、准确的高效液相色谱-蒸发光散射检测法(High performance liquid chromatography-evaporative light
本文提出了一种基于OAuth(Open Authorization,一种开放的授权标准)的分布式访问控制模型,旨在研究移动互联网络和物联网高速发展下的分布式网络环境中,访问控制模型该如何运
近些年,众包作为一种在开放环境下利用群体智慧来完成任务的新兴模式开始备受关注。众包的开放性吸引了大量自由工人参与其中。然而,众包工人在选择和执行任务过程中通常表现
无线传感器网络(Wireless Sensor Network,WSN)是一种新兴的信息获取方式和处理技术,因其部署方便、功耗低、成本低等特点,已被应用于诸多领域,而且给更多的应用空间和应用价
现代社会的发展在本质上是依赖可靠和有效的能源来维持。从工业革命开始到18世纪末,化石燃料被证明是一种稳定的能源而被广泛应用。然而,随着工业技术迅猛发展,人类对化石能源的需求迅速增长,造成了化石能源的过度开发和利用。由于地球化石能源储量有限且不可持续利用,人类不得不转战可再生能源,如太阳能、风能、水能等。其中太阳能作为一种最有前景的替代能源,受到了研究者的广泛关注。太阳能廉价易得,且储量丰富。因此,
本研究基于行为声明,针对应用软件在Linux环境下的行为进行了可信性测试方法方面,可信度量标准方面与可信度计算方面的研究。首先,针对Linux系统特性,分析了软件在运行时的相