【摘 要】
:
伴随着存储技术的发展以及信息采集的多样化,高维数据获取的成本变得越来越低。然而,高维数据除了包含重要特征,还可能包含了大量噪声以及冗余特征进而导致“维数灾难”问题。数据降维技术通过寻找高维空间的低维表示,是解决“维数灾难”最有效的手段。特征选择是重要的数据降维技术,其在不改变特征数值和单位的前提下从原始的高维空间中选择特征子集。近年来,稀疏正则技术被引入到特征选择方法中,其通过优化构建的稀疏模型进
论文部分内容阅读
伴随着存储技术的发展以及信息采集的多样化,高维数据获取的成本变得越来越低。然而,高维数据除了包含重要特征,还可能包含了大量噪声以及冗余特征进而导致“维数灾难”问题。数据降维技术通过寻找高维空间的低维表示,是解决“维数灾难”最有效的手段。特征选择是重要的数据降维技术,其在不改变特征数值和单位的前提下从原始的高维空间中选择特征子集。近年来,稀疏正则技术被引入到特征选择方法中,其通过优化构建的稀疏模型进行特征选择,同时获得数据的稀疏表示,其中基于线性判别分析(LDA)的稀疏正则特征选择方法由于具有简单高效等特点吸引了广泛的关注。然而,这类方法往往基于高斯分布假设,忽略了数据的局部几何结构,导致在普遍存在的复杂分布数据集上效果欠佳。为了获取数据的局部几何结构,许多研究者选择在原始空间中预先定义一个图结构来表示样本间的数据关系,并依赖于预设的图结构进行后续的降维任务,由于原始空间中可能包含了大量的噪声和冗余特征,导致预先定义的图结构往往是不准确甚至是错误的,进而使得最终选择的特征不是最优的。本文针对上述缺点提出了两个监督特征选择方法,主要研究工作如下:(1)提出了自加权局部判别特征选择算法(SLD-FS),该算法在线性判别分析的迹比值准则(trace ratio criterion)基础上为投影矩阵添加l2,1范数作为惩罚项以获得具有行稀疏性质的投影矩阵。针对复杂分布问题,该算法根据子空间中样本间的距离自适应地为所有同类样本点赋予权值,其中子空间中距离较近的样本对被赋予较大的权值,反之相反。为了减少原始空间中冗余特征及噪声的影响,我们根据子空间的变化不断地对图结构进行自适应的调整。此外,我们提出了一种迭代的优化算法来求解目标函数,并在理论上和实验中都证明了目标函数的单调收敛性。(2)提出了自适应近邻图判别特征选择算法(AND-FS),该算法自适应地为所有样本选取子空间中距离最近的k个同类样本作为邻域样本来获取数据局部结构。此外,通过不断迭代地对子空间和图结构进行调整来减少噪声的干扰,并且通过约束邻域样本点的个数保证同类样本间的边连接具有一定的稀疏性。受TRLN[1]启发,我们提出了一个快速迭代的求解算法,并且通过实验论证了该优化算法具有快速收敛的性质。
其他文献
在数字化经济的背景下,生产商、零售商与消费者之间的关系发生了巨大的变化,其中最大的影响可能是由所谓的平台产生的。互联网平台作为一个数字中介,可以有效地将外部生产者/销售者与消费者联系起来,促进商品、服务或社会货币的交换。作为一种以网络外部性为特征的新型经济组织,互联网平台凭借其独特的多边市场属性和强大的数字技术为消费者提供了新型的消费工具,使其在交易过程中掌握了更大的自主权、选择权、影响力和控制力
Higgs的发现标志着标准模型的巨大成功!但标准模型不能解释规范等级问题,也不能解释宇宙物质反物质不对称性,因而被认为是更基本理论在电弱能标下的低能近似。标准模型的超对称扩充不仅能解释规范等级以及宇宙物质反物质不对称性等问题,还能提供冷暗物质的候选者,并自洽的引入see-saw机制解释左手中微子的微小质量。但LHC的实验数据表明超对称粒子的质量很可能远大于1TeV,使得利用对撞机在实验上直接探测到
我国居民的食用油消费量巨大,其中花生油占有重要的地位,年产量约达到200万吨。且花生营养极高,含有大量的不饱和脂肪酸和维生素E,因此,其制品花生油广受人民的欢迎,随着人们
暗物质粒子的本质依然困扰着粒子物理学家们。关于暗物质性质的探测一直在继续。本文通过拟合射电能谱来限制暗物质粒子属性。第一章中,本章综述了暗物质存在的证据和近期暗物质间接探测的研究。第二章中,我们探讨暗物质子晕对暗物质湮灭信号的增强作用。我们通过拟合大区域范围内的M31射电数据来限制暗物质粒子属性。M31暗物质晕中包含了数目众多的子晕,子晕分布有望可观地增强暗物质湮灭信号。考虑到M31外围区域暗物质
当前,大量的天文学观测和探测实验都表明了暗物质的存在,并且暗物质占到宇宙总量的26.8%,而重子物质仅仅占4.9%。如果我们接受量子场论的基本假设,即所有物质都是由场或者粒子组成的,那么可以期望的是暗物质可以在粒子物理实验中被观测到。这样的动机使得粒子物理学家更渴望了解暗物质的粒子属性,而在理论上我们还没有给出一套非常合理的理论解释,标准模型中也没有充当冷暗物质候选者的合适粒子,所以对标准模型进行
BaO-ZnO-SiO_2系陶瓷具有较低的介电常数和介电损耗,成为毫米波器件用候选材料之一。本文选择BaO-ZnO-SiO_2三元系陶瓷为研究对象,利用X射线衍射(XRD)、拉曼光谱、扫描电镜(SEM)和网络分析仪等仪器系统地研究了陶瓷的制备工艺、相组成、显微组织和微波介电性能,并从晶体化学键参数和晶格振动出发,探讨了其微波介电性能的变化机理,最终制备出微波介电性能良好的Ba Zn_2Si_2O_
随着半导体制造工艺的不断进步和应用需求的不断提升,非制冷红外焦平面探测器技术已经朝智能化、高性能、低成本方向发展。其成本低、功耗小、质量轻、体积小等优点,使得该项技术在军民领域均取得了广泛的应用。相比其工艺水平,非制冷红外焦平面探测器计算机辅助技术发展相对滞后。尤其在探测单元微测辐射热计的设计仿真和其单元测试结合不够紧密,因此无法及时根据相关器件测试结果及时修正相应的仿真方法,从而提高设计仿真精度
回望中国市场,房地产行业作为国民经济的支柱产业,在过去的二十余年间,实现了迅猛的发展,为经济的持续增长做出了巨大贡献。与此同时,伴随着2016年底以来层层加码的房地产调控政策,房地产行业在经济新常态及结构转型的背景下也面临着重要转型期。作为资金密集型行业,房地产业对金融的依赖性较强,在保障国内经济稳定运行、推动经济转型与金融体系改革的过程中,改善房地产信贷渠道单一、发展多元化融资成为政策研究的主要
建立多元免疫分析方法对水体污染物进行监测具有重要的现实意义。本研究筛选出无相互影响的三种目标分析物,使用酶标板建立了多元检测模式;建立了纸质芯片免疫分析方法,探究
近年来,随着消费电子产业特别是智能手机的快速发展,处于消费电子上游产业的各消费电子部件供应商的业绩也水涨船高,产能整体上呈扩张态势。随着行业竞争的加剧,拥有上市公司身份的企业纷纷开始并购重组,强强联合以增强自身竞争能力,这使得行业集中度进一步得到提升。领益科技(深圳)有限公司(下文简称“领益科技”)作为全球领先的消费电子精密功能器件供应商,近年来伴随着消费电子产业的快速发展,不断扩大生产规模。然而