基于标签信息的流形对齐算法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:vincent_iong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是模式识别和数据挖掘等领域的研究热点。随着互联网的普及,实际应用中所面临的分类数据不仅数据量大而且呈现出较高的维度,给数据分析带来很多不便。如何对这些数据提取有效特征是我们面临的首要问题。流形学习和度量学习都是典型的非线性特征提取方法,已广泛应用于分类问题中。但传统流形学习和度量学习都只能用于单个领域。由于web应用领域的飞速发展,数据更新速度快,新领域层出不穷。新领域中的训练数据往往是有限的不足以满足传统分类方法对训练数据量的要求,标注新数据或重新训练模型都会带来巨大的成本。如何利用已有的相关辅助域中的标记数据帮助新领域学习有效的分类模型是学者们一直关注的问题。流形对齐算法是解决上述问题的一种潜在方法。流形对齐将来自不同领域的高维数据同时投影到一个共同的潜在低维空间中,同时保持流形间的对应关系和流形自身局部几何结构不变,从而实现迁移学习。传统的流形对齐算法需要充足的对应点信息挖掘不同流形样本点之间的联系。但是,在数据分类问题中,一般只有训练样本的标签信息,而没有数据集之间的对应点信息。如何利用标签信息,挖掘不同领域数据之间的关联性,是将流形对齐应用于跨领域数据分类的关键问题。本文以分类问题为研究背景,利用标签信息挖掘不同流形样本点间的联系,并提出基于标签信息的流形对齐算法。此外,将流形学习和度量学习结合,改进数据分类的准确性。进一步的,将度量学习与流形对齐思想结合,将度量学习应用于跨领域数据分类。具体研究内容如下:1.提出基于标签空间映射的流形对齐算法。算法通过样本标签信息和局部几何结构重构每个样本点的特征,并结合余弦相似性计算流形间样本点的相似度。保持目标域局部几何结构和流形间的相似性不变,将源域和目标域同时投影到共同的标签空间。在计算目标域未知类别样本的低维嵌入的同时获得样本类别而不需要用到分类器。在几个数据集上的分类实验验证了基于标签空间映射的流形对齐算法的有效性。2.提出基于近邻元分析的半监督局部线性嵌入算法。算法将度量学习与流形学习结合起来,充分利用样本标签信息结合度量学习学习新的距离度量方式以准确挖掘样本局部几何结构。保持这种样本局部几何结构不变,将样本投影到低维空间。实验证明,该算法能得到良好的降维效果,将低维嵌入结果输入分类器能得到较好的分类结果。3.提出基于近邻元分析的半监督流形对齐算法。算法借鉴近邻元分析和流形对齐的思想,将原来单个数据集上的近邻元分析模型推广到两个流形上,结合两个流形上的标记数据,在两个流形上同时分别学习合适的度量矩阵,将两个流形投影到类别区分度更明显的低维空间。在一些数据集上的实验证明了该方法在分类问题中的有效性。
其他文献
在经济迅速发展、商业走向繁荣的大背景下,现代化企业正面临着所有权与经营权分离的特征。这种特征代表企业的所有者不直接参与企业的经营活动,从而无法掌握企业的全面信息。同时,企业的管理者并不拥有企业,从而并不像所有者一样时时刻刻为企业长期利益着想。在这种所有权与经营权严重分离的情况下,注册会计师审计的价值急剧上升。注册会计师审计本意是为企业所有者及预期使用者提供财务报表的合理保证,为企业所有者和经营者搭
从整体结构来分析,水电站机组辅助设备主要包括进水阀、供排水系统、用气系统、油路系统,这4大系统为促进水电站机组的正常运转发挥着不可替代的作用。论文将分层分析水电站
青春网络小说在思想上极力张扬个性,语言上形成了狂欢、诙谐、时尚、夸张等一系列特征,这是传统文学语言所不具备的。本文以《把梦还我》为例,分析青春网络小说在语言方式上给传
师生关系是学校中最主要的社会关系,师生关系涉及到师生间的心理关系、工作关系以及道德关系,并且这些关系都是相互渗透制约的。在新的发展形势下,应构建现代和谐的师生关系,
金融市场中存在着大量与有效市场假说相悖的现象。本文基于行为金融学的理论,通过对投资者心理偏差以及由此导致的行为偏差进行分析,指出处在弱式有效的中国股票市场的投资者
随着我国的经济发展,会计师事务所不断发展壮大,会计师事务所开展的业务与委托单位的利益切实相关,尤其审计业务质量更对企业有决定性作用。虽然证监会对会计师事务所进行了
本报讯 国产RHY3532汽缸油复合剂近期通过了曼恩柴油机公司的技术认证。据悉,该产品由中国石油润滑油公司旗下的中国石油大连润滑油研发中心研制,其通过认证标志着该公司成为
报纸
每一档电视新闻节目自身的风格以及节目的宗旨很大一部分是后期编辑的功劳,可以说后期编辑起到了画龙点睛的作用。由此可见,后期编辑是整个电视新闻节目制作过程当中重要的组
<正>中国美术内涵四千多年前,大禹治理洪水,涉足的地域按照九宫格的模式分为九个区域,统称九州,后来成为中国的别名。九州中央的豫州,地处中原,也被称为中国。《史记·货殖列
为探究土壤侵蚀各影响因子在一个较大的地理系统内的组合变化关系,以淮河流域为研究区,通过收集流域内土壤、植被、地形、气候等数据,利用二元相关分析、偏相关分析和通径分