面向高维数据的特征学习理论与应用研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:wdlwo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息获取和信息传输技术的飞速发展,海量图像、视频、文本以及音频等数据不断生成。这些数据结构复杂、表征维度高,通常含有大量无关的冗余信息,直接处理和利用这些原始数据通常难以获得理想的效果。特征学习就是要从复杂的高维数据中挖掘出反映数据本质的、更为紧凑的内蕴结构特征,不仅可以降低数据处理的时空复杂度,而且可以显著改善后续处理任务如分类、聚类、检索等的性能。为此,围绕特征学习方法的研究受到了机器学习领域专家的高度重视。目前广为使用的特征学习方法包括线性特征学习的主成分分析、线性判别分析、非负矩阵分解等,以及非线性特征学习的等距映射、局部线性嵌入方法、拉普拉斯特征映射、邻域保持嵌入、等距投影、局部保持投影以及判别邻域嵌入等,虽然这些方法在分析和处理高维数据时有其各自的优势,但是在某些场合应用时仍然会出现各种问题。本论文正是针对现有特征学习方法中的不足,研究相应的应对措施,并提出了若干全新的算法。除此之外,由于张量能够自然的表征复杂的数据结构近年来备受关注,本论文在张量学习方法上进行了大胆的探索。具体来说,本文的主要贡献集中在以下几个方面:(1)概念分解是纯粹的无监督学习方法,不能利用先验知识指导学习过程。针对上述不足,本文提出基于半监督概念分解的特征学习方法。该方法利用有监督信息指导聚类过程,把对约束奖惩项引入概念分解框架中。由于属于同一类的数据点对在新的表示空间有不同的强度,因此在为每个对约束添加惩罚时,依据其重要性的大小添加相应权重,更好地解释了类内方差,因而得到了更易于聚类的低维特征。通过精心设计目标函数使得那些在源空间属于同一类的数据点在低维转换空间仍然属于同一类,同时给出了求解局部最优解的迭代更新策略,并证明了该迭代更新策略收敛。和时下经典聚类算法的对比实验,表明本算法获得的特征表示更有利于文档聚类任务的高效实现。(2)针对半监督概念分解方法忽略无标记样本的局部结构信息这一缺陷,提出了基于邻域保持的半监督概念分解特征学习方法。该方法把对约束信息和与不变性相关的信息引入到概念分解框架中以提高学习性能。这里的不变性不仅包括几何空间上的邻域保持性质,也包括由对约束must-link产生的约束保持性质。为此我们使用了捕获几何结构信息的p-近邻图和保持约束限制的成员邻接图编码信息。此外,构造了目标函数的迭代优化算法,分析了迭代优化算法的收敛性。通过充分的对比实验验证了本算法具有更好的适应性,可以获得区分度更高的特征表示。(3)局部保持投影是一种经典的无监督的流形学习方法,但是该方法不能利用有监督信息指导学习过程。针对上述不足,本文提出了基于局部一致判别的特征学习方法。该方法在LPP的基础上,借助有类别标记数据点构建类内邻接图和类间邻接图,通过优化目标函数使得同类的顶点更加紧凑,不同类的顶点更加疏远,从而完成划分过程。由此得到的局部一致判别分析方法不仅保持数据的局部几何结构信息,同时也增强了数据的判别性。除此之外,给出了局部一致判别分析的目标函数的优化算法。和经典的人脸识别算法在公开数据集上的对比试验表明了本算法的有更强的判别能力。(4)给出了张量树特征学习算法框架,揭示了经典张量分解如Tucker分解和CP分解与张量树学习理论的关系,并给出了张量树特征学习算法框架下的邻域嵌入张量学习新算法。数据的多样化、海量化、高阶化使研究者们展开多方位的研究,张量作为一种有效的表示和分析复杂数据的工具受到了广泛关注。我们在已有工作的基础上,提出了新的张量树学习算法并构建张量树特征学习理论框架,丰富和发展了张量学习的研究内容。进一步地,在判别邻域嵌入方法的基础上,提出了张量树特征学习理论框架下的邻域嵌入张量学习方法,该方法不仅克服了DNE可能导致的“维数灾难”和“小样本问题”,而且弥补了DNE方法偏重数据的邻域点而忽略数据非邻域点的影响的不足。通过精心设计目标函数,使得投影空间的同类结点更加紧凑,不同类结点更加疏远,保持数据局部结构一致性同时提高数据判别能力。在ORL、PIE和COIL20等公开数据库上的实验,验证了NTL拥有更高的识别率和效率。
其他文献
本文考证了劳务经济概念,探讨了它与马克思主义经济学中的服务和西方经济学中第三产业概念的区别,最后考证了目前农村劳务经济的特点。
目的探讨现役军人的心理健康水平,研究心理干预的重要性。方法将入组新兵在入伍时随机分成两组,入组前对两组新兵用症状自评量表(SCL-90)测试.当场交卷。要求两组在年龄、文化程度
当今教育事业当务之急的任务是要提高学生的综合素质,这个取决于素质教育。作为学生的思想道德教育的指导者,师德师风是作为一名合格教师的必备技能。本文从一名普通高职教师
北京成功申办2008年奥运会,对我国的体育产业而言,不仅蕴藏着巨大的商机,也不可避免地暗浮着种种危机,这种危机一般3年~5年后集中呈现,即出现在奥运后期,因此如何让2008奥运后
双稳态触发器是具有记忆功能的核心逻辑单元,在数字集成电路中发挥着重要作用.采用特征方程法并配合电路结构来研究双稳态触发器的逻辑功能,充分体现了各触发器之间的演变过
目前,终末期肾病最理想的治疗方法是肾移植。肾功能衰竭患者病情复杂,高血压、贫血、低蛋白血症、凝血功能障碍、严重的水肿、水电解质失衡、心功能不全等病症给麻醉处理及术中
切换系统可以对多模态或多控制器的系统进行建模,在航天、能源、通信等行业具有广泛的应用前景,是控制领域当前一个非常重要的研究课题。该系统主要由有限个子系统和控制/描
为实现高素质、应用型人才培养目标,针对金属材料专业开设的专业课程——模具寿命及强化技术课程特点及教与学中存在的问题,提出构建以理论学习、综合材料体系基础知识为指导,建
随着我国近年来经济与社会的发展,我国对于文化的重视程度也在逐年提高,而在我国农村的相关文化建设中,"农家书屋"是我国重点推行的文化建设工程。虽然我国近几年下大力度推
目的探讨拔牙病例在关闭间隙时使用带曲0.51mm×0.64mm不锈钢方丝对改善前牙唇倾度的影响。方法25例拔牙病例在关闭间隙过程中选出12例前牙过于直立或舌倾的患者,换用带曲0