面向高维复杂数据的特征降维方法研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:pocohao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的发展和大数据时代的到来,各行各业每天都在产生大量数据,尤其是高维数据呈现出日益增长的趋势。数据的高维复杂特性会给数据结构探索和机器学习以及数据挖掘算法性能带来挑战。目前,人们已经开发了许多特征降维方法来处理高维数据。随机邻居嵌入模型是一种经典的降维模型。然而,基于该模型框架的大多数方法均存在“拥挤问题”,即生成的低维表示无法有效分离属于不同类别的对象,他们往往存在重叠。此外,针对高维多视图数据,已经存在许多特征选择方法。然而这些方法往往都基于视图完备假设并只能处理静态全量数据。而在实际收集的数据中,多视图数据往往还存在着样本缺失(不完备特性)以及样本动态性变化。这使得已有的方法直接应用于动态不完备多视图数据往往存在较高的存储和计算成本,同时不能有效地选择出有用的特征。为了解决这些问题,本文一方面通过将Wasserstein距离和t-Copula函数集成到随机邻居嵌入模型中来提出一种新的降维方法TCWSNE,该方法为传统的随机领居嵌入模型生成了更灵活的低维空间分布,提高了低维特征在分类和聚类等算法上的性能。另一方面,本文提出了一种针对不完备多视图流数据的无监督特征选择方法(!!"#$%)。!!"#$%将特征选择嵌入到扩展的加权非负矩阵分解模型中,同时学习各视图一致的聚类指标矩阵与自适应视图权重,并采用增量方式更新特征选择矩阵,大幅提高计算效率。本文的主要贡献总结如下:(1)将基于t-Copula函数的广义厚尾分布集成到随机邻居嵌入模型中,提供一种更灵活的方法来避免拥挤问题,提高分类和聚类任务的性能。(2)提出了一种新的多视图无监督特征选择方法,用于处理不完备的多视图流数据。该方法将无监督特征选择嵌入到扩展的加权非负矩阵分解模型中,同时考虑了跨视图的一致性和互补性信息。通过引入增量学习机制,开发了一种增量交替迭代优化算法,可以显著提高特征选择的计算效率,并给出了该算法的理论证明,保证其收敛性。(3)在多个数据集上进行了大量的实验,与多种先进方法进比较,证明了本文所提出方法的有效性和鲁棒性。
其他文献
<正>民用飞机专项科研技术研究项目(以下简称“民机科研专项”)是工业和信息化部为提升我国民用航空工业科技创新能力而组织开展的科学研究项目,其档案是一种重要的科研课题档案,既是科研院所技术研究的重要知识积累,也是国家关于民用飞机理论与实践研究的宝贵财富。“十三五”期间,中国飞机强度研究所立项承研十余项民机科研专项并顺利通过成果验收鉴定,在民机科研专项档案管理方面进行了实践探索,对加强专项档案治理、提
期刊
进入21世纪以来,农业生产面临着谁来种地,如何种地的问题,劳动力向第二产业和第三产业转移,存在着土地撂荒现象,降低了土地的使用率。我国农业以家庭联产承包责任制为基础,在传统家庭经营的小农经济或专业大户中,孕育发展家庭农场等新型经营主体,促进了农业规模化的发展,助力乡村振兴。家庭农场作为新型农业经营主体,其发展过程中面临着有别于传统农户的金融需求,但现有的融资模式还不能满足家庭农场的融资需求,存在着
学位
二十四节气文化不仅反映了农耕文明的自然时序,而且是中国传统民俗文化的瑰宝,其中蕴藏着丰富的教育资源,可以服务于幼儿园课程体系,培养幼儿热爱劳动、热爱自然、热爱传统文化的高尚情操。基于此,立足二十四节气文化与幼儿园课程的相关联系,对二十四节气文化融入幼儿园课程提出因地制宜、深入挖掘、改编创编、家园合作等策略,以丰富幼儿园节气课程内容,促进幼儿的良好发展。
期刊
快速工业化促进了全球经济增长,提高了全球生活水平,然而,人类活动也日益对环境产生负面影响。近年来,人为排放的温室气体创造了历史新高,气候环境变化对人类和自然系统产生了广泛的影响,应对气候变化需要政府、企业等多主体的共同努力。近年来,一些大型跨国企业作为先行者展开了多种供应链减排实践,并初见成效。在经济全球化的今天,中国参与全球价值链(Global Value Chain,GVC)分工逐渐深入,贸易
学位
随着经济全球化的发展,各地区的经济发展联系日益加强,金融市场一体化程度逐渐加深。我国内地市场和香港市场在经济贸易、企业上市等多方面经济金融活动的联系日益紧密,并且为了稳定大陆和香港股市的互联互通,我国陆续开通了沪港通和深港通互联互通机制,使得香港股市和大陆股市之间的联动性大大增强,但香港和大陆股市存在制度差异,因此考虑股市的贡献和特性度量股市之间的联动性对于投资者的投资渠道、市场监管者的监管方式和
学位
近年来,由于政策、供求、国际等因素,我国玉米现货期货价格剧烈波动,特别是在2016年,国家取消了临时收储制度,转而实行“价补分离”政策,导致玉米的价格大幅度下跌,相关经营者的避险投资需求日益强烈。本文从对玉米期货价格产生影响的各种因素出发,构建基于LSTM神经网络的预测模型,对玉米期货未来的价格进行预测,旨在为我国玉米经营生产企业规避风险提高收益,并为政府调控粮价提供一定参考。本文选取了2014年
学位
五大发展理念是指“创新、协调、绿色、开放、共享”的发展理念,是我国现阶段的行动先导,体现了发展思路、发展方向、发展着力点。党的十九大报告强调了创新是引领发展的第一动力。高技术产业作为知识和资本密集型产业,其创新产出对区域创新驱动具有重要的意义。本文结合五大发展理念,构建了更符合新发展阶段的含共享投入要素的创新效率评价模型,旨在探讨当前我国高技术产业创新效率的区域差异以及影响不同阶段创新效率的因素,
学位
自2004年以来,中央一号文件已连续18年以“三农”为主题,体现了我国对“三农”问题及对农村地区经济发展的重视。在这样的背景下,农村商业银行自诞生起就在支农惠农工作中起到了必不可少的支撑作用,并取得了快速地发展。然而,目前我国的农村金融市场相对落后,发展不完善,风险控制措施不健全,这就给扎根于农村金融市场的农村商业银行带来了不可忽视的隐患。同时,农村商业银行作为农信社改制而来的地方性金融机构,与国
学位
随着乡村振兴战略的推进与农业农村现代化的发展,我国农村金融市场不断完善,为农村经济发展和农民生活质量的提升做出了重大的贡献。但由于原有基础薄弱、后期投入不足、农村金融环境不完善等原因,目前的农村金融市场资源配置效率较低,农村金融模式和服务体系难以满足农民的金融需求,农户仍然面临信贷约束。资金短缺对农业经济发展和农民收入具有抑制效果,信贷约束问题成为制约农业农村现代化发展的瓶颈。因此,本文基于农户生
学位
近年来随着我国利率市场化改革的不断推进以及互联网金融的不断发展,银行利差不断缩紧,因此银行仅仅依靠传统的信贷业务已经无法保持竞争优势。在此背景下,我国商业银行纷纷谋求转型,积极调整业务结构,不断开展各项非利息业务,提高非利息业务收入的占比,从原先的依赖信贷规模扩张的单一盈利模式逐步向业务结构多元化、收入多元化模式转变。非利息业务的发展在给银行带来了新的盈利增长点的同时,也可能由于结构变动、业务风险
学位