【摘 要】
:
降维是机器学习和数据科学领域的重要研究方向,其应用包括但不限于数据预处理、数据可视化等。多数现有的降维算法获得可信低维嵌入的前提是输入数据具有稠密、均匀的分布特性,但这些方法往往在稀疏数据等缺陷数据上失效。因此,提高降维算法在不同数据情况下的通用性,是一项有意义且具有挑战性的任务。本文从鲁棒降维方法的角度出发,着眼于提高降维方法在缺陷数据上的适用性。基于线性、非线性与神经网络三种降维模型,本文工作
论文部分内容阅读
降维是机器学习和数据科学领域的重要研究方向,其应用包括但不限于数据预处理、数据可视化等。多数现有的降维算法获得可信低维嵌入的前提是输入数据具有稠密、均匀的分布特性,但这些方法往往在稀疏数据等缺陷数据上失效。因此,提高降维算法在不同数据情况下的通用性,是一项有意义且具有挑战性的任务。本文从鲁棒降维方法的角度出发,着眼于提高降维方法在缺陷数据上的适用性。基于线性、非线性与神经网络三种降维模型,本文工作总结为以下三项:(1)对于线性降维模型,本文从主成分分析算法易受异常值影响的角度出发,将角度优化全局嵌入算法在几何视角下重新描述为角度嵌入算法(Angular Embedding,AE)。基于单位超球面流形上的余弦度量,本文从大距离异常样本抑制和方向性异常样本抑制两方面解释并证明了AE算法的鲁棒性。此外,本文提出预裁剪的角度嵌入算法(Trimmed Angular Embedding,TAE),用于处理大规模异常值下的降维问题。在包含大规模异常值的数据处理任务上的实验证明了本文TAE算法的有效性。(2)对于非线性降维模型(流形学习),本文提出层次的近邻嵌入算法(Hierarchical Neighbors Embedding,HNE),来解决现有流形学习算法在稀疏数据或弱连接流形数据上失效的问题。HNE算法框架在流形降维中引入并保持层次的邻域结构,增强了局部流形学习算法的几何与拓扑保持能力。基于HNE框架,本文给出了不变性优先的HNE、重构优先的HNE与平衡的HNE作为三种实现算法。本文在手工及真实数据上对算法进行测试,证明了HNE算法在稀疏与弱连接流形数据上的鲁棒性。(3)针对基于神经网络的降维模型,本文基于深度编码网络提出了拓扑强化深度流形学习算法(Topologically Enhanced Deep Manifold Learning,TEDML),能够学习显式的非线性流形映射。TEDML算法借鉴了传统流形学习算法中的结构保持准则,能在流形降维时出色地保持拓扑与几何结构。本文在TEDML网络上提出拓扑强化注意力模块,用于修复降维中受损的拓扑连接关系,提高了算法在稀疏数据上的处理能力。TEDML算法的先进性与鲁棒性在实验结果中得到了证实。
其他文献
《文化中国》一书是中国现代新儒学代表人物杜维明先生缅怀其在东海大学的业师牟宗三和徐复观所著,系儒学主题著作,共收录杜维明先生有关新儒学的文章18篇。本文选取第三篇作为翻译材料,因其集中体现了作者的新儒学思想,具有深刻的中国文化思想内涵。根据纽马克的文本类型学,并通过对翻译材料进行分析,笔者判定原语文本既是表达型文本,又是信息型文本,兼具独特的原文风格与向读者传递信息这两种特征。鉴于此,为使译文保留
顺序回归,又称为排名学习,是机器学习领域中的一种介于分类和回归之间的监督学习问题.顺序回归的目标是从带有排序标记的样本中学习一个多分类器来预测新样本的标签.许多现实问题都非常重视对标签之间顺序关系的处理,这些问题大多可以被建模成顺序回归问题.事实上,在那些重视人类需求、行为与偏好的领域,顺序回归已经得到了广泛的应用,比如医学研究、信用评级、文本分类、人脸识别、社会科学等.支持向量机(Support
随着神经网络技术的发展,机器翻译迎来了新发展浪潮。在对国内语言服务行业进行的调查中,我们可以看到,机器翻译在语言服务行业的应用越来越广泛。而所涉及的翻译服务领域中,科技类文本占比最大。研究表明,机器翻译在翻译文学类文本时具有一定的适用性。但由于受到其机械性和自动性等特征的制约,机器翻译更适用于科技文本等非文学文本的翻译。在英语科技文本中,被动句是最为常见的一类句式,在运用机器翻译处理科技文本时,被
近年来,应用张量分析解决可视化数据的恢复问题越来越广泛.以矩阵补全和主成分分析的矩阵形式为基础,将其推广至张量情形.但由于张量秩的定义的多样性,产生了不同的低秩张量补全(LRTC)模型和张量鲁棒主成分分析(TRPCA)模型.目前最为广泛的是基于张量Tucker秩和张量tensor-train秩的LRTC模型和TRPCA模型.相比于张量Tucker秩,张量Tensor-train秩更能体现张量的内部
数学建模,曲线和曲面的构造以及形状保留是计算机辅助几何设计(Computer Aided Geometric Design,简称CAGD)中非常重要的研究领域。传统Bézier曲线由经典Bernstein基函数和控制顶点组成,具有对称性、端点性、非负性、线性精度、积分性、凸包性等优良特性。利用经典Bézier曲线的参数和几何连续性约束,可以很容易地构造任意曲线形状,但它的缺点是,设计者不能在不改变
近十年来,得益于硬件设备的升级和计算机算力的指数式增长,深度学习在计算机视觉领域取得了巨大的成功,并且在诸多行业有了实际的应用。图像领域的研究趋近饱和,以及短视频数量的急剧增长,也让作为计算机视觉的一个重要组成部分的视频,越来越受到研究人员的关注。但是,由于视频本身具有的信息冗余性,时序性强,时间范围广等特点,基于视频的分析和识别仍然是一个较大的难点。本文通过不同架构的网络结构,在多个数据集上进行
手势姿态估计在增强现实、虚拟现实以及人机交互等方面存在巨大的应用前景,一直以来是计算机视觉领域的重点研究方向。随着大规模手势姿态数据集的出现,基于深度图像的深度学习方法逐渐成为了手势姿态估计领域的主流方法。当前研究主要通过构建三维卷积神经网络进行手势姿态估计,致力于单一精度的提升,但通常导致模型复杂度过高、推理速度低下,难以满足实际应用、实时运行的基本要求。因此,为追求精度和实时性之间的平衡,本文
源文本节选自美国作家古德里奇19世纪50年代所著的历史文献History of All Nations:Asia,所译部分为第104章至113章,共计28000英文单词。该翻译任务由导师发起,导师已与出版社签订合同,翻译该书用于出版。该书的翻译采用“机器翻译+译后编辑”模式进行,选择了拥有良好口碑的国产机器翻译平台代表——小牛翻译作为此次实践的翻译工具,进而评估小牛翻译在翻译历史文献时的真实表现。
本项目实习报告基于笔者在烟台大学学报的摘要英译审校工作,实习时间为2020年1月至2021年9月,审校内容涵盖12期,共计145篇摘要。在项目期间,笔者的工作内容主要是审校烟台大学学报(哲社版)英文摘要,领域涉及哲学、文学、法律等。在项目准备上,本报告探讨了中英文摘要写作标准并分析了摘要文本特点,并在此基础上制定了审校质量标准,介绍了平行文本阅读过程、项目所需的工具和资源以及应急预案。在项目实施上
本翻译项目的材料选自Cultural China一书,书中着墨最多的是儒家的人文精神,突显儒家一脉相承的批判精神。在全球化和本土化意识均日益强烈的今天,该书对于儒家文化的继承与传播具有重要意义,可以为相关学者提供很好的参考,具有一定的翻译价值。本项目选取了书中“人文精神与全球伦理”作为源文本。作为人文精神主题演讲,全文语言流畅,虽涉及部分儒学专业术语,但整体难度适中,重点在于向听众传达思想和观点。