【摘 要】
:
随着信息技术的快速发展,社会各个领域出现了具有多元化和高维化等特点的海量数据。这些数据中包含着大量不相关和冗余的特征,给许多数据挖掘和机器学习算法造成“维数灾难”和“过拟合”问题。因此,需要通过特征选择对数据进行降维。特征选择是利用某种方法从原始数据集中识别并剔除冗余和不相关的特征,在不改变数据物理特性的前提下,选择出最具代表性,各特征之间相关性弱的特征子集,从而提高数据挖掘和机器学习算法的性能。
论文部分内容阅读
随着信息技术的快速发展,社会各个领域出现了具有多元化和高维化等特点的海量数据。这些数据中包含着大量不相关和冗余的特征,给许多数据挖掘和机器学习算法造成“维数灾难”和“过拟合”问题。因此,需要通过特征选择对数据进行降维。特征选择是利用某种方法从原始数据集中识别并剔除冗余和不相关的特征,在不改变数据物理特性的前提下,选择出最具代表性,各特征之间相关性弱的特征子集,从而提高数据挖掘和机器学习算法的性能。由于获取类标签十分耗时等原因,无监督特征选择方法是实际处理中更加实用。正则化自表示(Regularized Self-Representation,RSR)特征选择与特征级自表示选择(Feature-level Self-representation Feature Selection,SR-FS)是目前比较流行的基于正则化约束的特征选择方法。这类方法通过假设高维数据中每一个特征都可以表示为所有特征的线性组合构建了自表示模型,并对特征权重矩阵施加正则化约束进行无监督的特征选择。基于此理论,本文分别利用稀疏规则算子L1-范数正则化和内积正则化,构建不同的特征选择模型,提出两种不同的基于正则化回归模型的无监督特征选择方法。(1)特征级自表示选择方法(SR-FS)利用特征间自表示的性质,将特征选择过程视为一个损失函数模型优化问题,可以有效批量地评估每个特征的重要性。但在计算过程中,由于每个特征参与自身的重构,使得特征权重过度地向自身集中,导致权重无法合理分配且稀疏性较小。针对上述问题,提出基于特征稀疏关联的无监督特征选择方法。该方法首先建立特征选择模型:利用Frobenius范数建立损失函数项表示特征之间的关联关系,并且对特征权重矩阵施加L1-范数正则化约束,加强行稀疏性。然后,设计一种分治-收缩阈值迭代算法对目标函数进行优化。最后,根据特征权重评估每个特征的重要性,选择出具有代表性的特征。实验表明,所提方法在降低计算复杂度的前提下,能够合理分配特征权重,选择出的特征子集取得较好聚类效果且冗余率较低。(2)正则化自表示方法(RSR)利用L2 1,-范数对权重矩阵施加约束,但不能确保所选特征子集具有较高的稀疏性和较低的冗余性。针对上述问题,在正则化自表示损失函数模型中引入一种可以直接刻画出变量独立性和显著性的内积正则化,提出基于内积正则化的无监督特征选择方法。内积正则化是用特征权重向量内积的绝对值表示,即wi,wj,其中iw是特征权重矩阵W的第i行权向量。然后,本文还提出了一种有效的优化方法对目标函数进行求解。实验表明,基于内积正则化的无监督特征选择方法能同时实现特征子集的高稀疏性和低冗余性,可以有效识别出重要特征,剔除冗余和不相关特征。综上所述,本文主要围绕如何构建正则化回归模型进行无监督特征选择的问题展开了研究,针对SR-FS方法和RSR方法存在的不足之处,分别提出了两种改进的无监督特征选择方法。实验结果表明,所提方法能够从高维数据中选出低冗余的特征子集,提升聚类精度。
其他文献
羊肉美味独特,富含营养,深受食用者的欢迎。非冻结储运模式下的冷鲜羊肉最大限度地保留了肉品原有口感和营养,逐渐成为肉品消费市场的主流,然而冷鲜羊肉在贮运过程中易受微生物等影响导致新鲜度下降速率快、货架期短。新鲜度作为衡量羊肉经济价值和食用性的重要标准,对新鲜度的精确检测既可以维护消费者权益、保障食用安全,也能够加强对食品监督部门的监管。传统的肉类新鲜度检测方法已经不能满足羊肉流通中快速无损检测的需要
干旱的发生会对工农业的正常运行以及社会发展起到极大的限制,充分了解干旱的成因、变化规律及影响因素对预防干旱发生、缓解旱情有重大作用。构建合理、适宜的水文干旱指数可以量化干旱的特征以及变化趋势,便于人们对干旱的研究与预防。近年来,人类活动对干旱的影响不断加大,分析人类活动下土地利用/覆被变化对干旱的影响,对于了解干旱、抑制干旱、预测干旱意义重大。本文选用四种分布函数对寨上、兰村站1958-2000年
抗滑磨耗层是一种能快速提高路面抗滑性能的预防性养护技术,本文针对聚氨酯类超薄磨耗层的抗滑性能和耐磨性能以及抗滑衰变规律进行系统性的研究。研究填料种类对聚氨酯物理性能的影响以及树脂用量、铺装工艺和防滑粒料的种类、粒径对超薄磨耗层抗滑性能的影响,采用国际摩擦指数IFI、回归拟合分析法和灰色关联分析法来评价其抗滑性能和耐磨性能,基于分子动力学技术对聚氨酯树脂与防滑粒料的界面相互作用进行研究。聚氨酯超薄磨
海藻酸钠是一种被广泛研究并用于组织工程、药物输送等生物医学领域的天然阴离子多糖,但其自身存在稳定性差、耐水性不足以及无法负载疏水性药物等问题,应用过程中往往需要对其进行改性,通过化学改性可以改变海藻酸钠的亲疏水性质并赋予其新的特性。静电纺丝是制备比表面积大、孔隙率高的纳米纤维的有效技术,将海藻酸钠制备成纳米纤维可在生物医药方面发挥很大的作用,但由于海藻酸钠的刚性其静电纺丝仍存在一定的挑战。本文基于
高精度的地表温度(Land Surface Temperature)产品具有广泛的应用场景,对林业养殖、农业耕种、气象预报、城市热岛研究等领域有着深远意义。传统的地面观测难以获取大范围的地表温度,并且在时序上无法连续,因此不能反映真实的地表温度时空分布状况。遥感技术的飞速发展使得热红外遥感为获取大范围地表温度信息提供了新的途径。国产环境一号卫星(HJ-1B)热红外通道数据时间分辨率高,易获取,为我
《乙瑛碑》点画的临写任何书体的基本笔画皆有点画。点画是字之眉目,全藉顾盼精神,故隶书中的"点"虽属平画,但也有向背,随字赋形。《乙瑛碑》中点画变化丰富、形态多样,它是其它笔画的浓缩,主要有正点、横点、竖点等多种。临写时须用心体会,仔细观察,切实做到精准临写。1.正点。逆锋向上起笔,再向右下顿笔,然后转锋向左下方行笔,最后提笔出锋。书写时要做到一笔完成。如"守、空"等字。
新疆棉花及其制品因具有较高的使用价值和良好的经济效益,棉农种植积极性强,使新疆棉花种植面积和单位面积产量在我国棉花种植各省市中均居首位。其中,播种质量是影响棉花单位面积生产率的重要因素之一。针对集排式排种器田间受迫振动、棉种颗粒运移稳定性差等问题,采用提高集排器投种高度、增加辅助投种的吹种正压、成穴器破膜播种作业等方式,设计了一种能够和新疆膜上穴播工艺相适应的集排式棉花播种机排种运移系统,确定了集
目的:探究新疆石河子市3240例HPV和TCT双筛异常行阴道镜活检者的宫颈病变特点,为临床工作提供指导。方法:收集2017年5月~2019年3月在石河子大学医学院第一附属医院妇科门诊行宫颈脱落细胞液基细胞学(Thinprep Cytologic Test,TCT)和人乳头状病毒(human papilloma virus,HPV)检测,结果异常转诊行阴道镜下子宫颈组织活检的3240例患者的临床病理
如今大数据存在于生活中的方方面面,对各种形式的海量数据进行合理应用,无论对于个人还是企业,都能带来可观的收益。视频数据作为这些海量数据中的主要部分,应用领域涉及生活中的各种场景,例如运动分析、医疗康复以及安全监控等。但现有技术对于视频中的人体行为识别问题的处理仍存在一些不足之处,这个领域仍然需要进行更加深入的研究。本文对于视频中的人体行为进行识别,主要分为两步,一是获取人体三维姿态特征信息,二是利
光热治疗(PTT)是指聚集在肿瘤附近的光热转换材料,在外部光源的照射下吸收光能并转化为热能来触发癌细胞死亡的一种治疗方法,具有效果明显、副作用小且成本低的优点,吸引了科研人员的广泛关注。贵金属纳米材料具有独特的局部表面等离子体共振(LSPR)效应,特别适合作为光热转换材料。但目前开发出的贵金属光热转换材料仍面临制备过程复杂、光热转换效率(PCE)低、光热稳定性差和生物毒性高等严重问题,因此开发一种