面向高维数据的分层特征选择算法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bingling1054
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,我们可获得的数据的数量与维度正在以几何速度的方式增长。这给我们对数据进行分析带来了极大的挑战。与此同时,样本的特征不可避免的会出现很多不相关的特征和冗余的特征,因此带来“维度灾难”。这样不仅会使学习模型的容易出现过拟合的情况,而且会让学习模型的时间复杂度和空间复杂度增大。特征选择作为一个数据降维的有效手段,在数据处理中扮演着重要的作用。本文主要关注的是高维数据中特征冗余的问题。为此,本文从如何识别特征组的角度出发,来研究如何高效的识别出特征组,并研究如何利用特征组的结构来进行特征选择。本文首先提出了一种分层特征选择的方法,该方法在带权重的协同聚类的算法中引入类标信息,提出了一种子空间聚类算法。通过聚类结果,本文提出了一种分层特征加权算法来给特征进行排序。然后在分层特征选择方法的基础上,本文提出了一种基于特征权重的方法来学习特征的重要性,以此简化模型。最后在分层特征选择方法的基础上,本文进一步分析了同一特征组中排名靠前的特征仍然可能是高度相关,于是本文又提出了一种差异性约束的方法来进一步减少特征之间的相关性。通过大量的实验我们可以知道上述三种分层特征选择方法可以有效的选择出信息量高且多样的特征。
其他文献
卡贡地区地处澜沧江北段,位于特提斯构造域东段、冈瓦纳大陆与劳亚大陆(扬子陆块)的结合部。澜沧江构造带作为青藏高原大地构造单元划分与板块研究的一条重要分界线,是研究东特提斯演化的理想地段之一。由于藏东地区地势险峻、交通不便、研究程度较浅,影响了人们对澜沧江构造带北延问题及其形成和演化的认识。本文通过对北澜沧江构造带卡贡地区出露的中-基性岩浆岩进行岩石学、全岩地球化学、锆石U-Pb年代学分析研究,以探
目的本研究通过分析机械取栓治疗并发症发生的相关原因,从而进行经验总结,旨在提高手术安全性,降低取栓并发症发生率。方法收集包头市中心医院神经内科2013年1月-2016年12月
制药行业是我国国民经济的重要组成部分之一,具有技术发展迅速、产品需求迭代快、研发需求高的特点。近年来,随着我国城市化进程加快、人口老年化问题加剧,制药行业整体上取得了较快的发展;但是依然存在研发能力薄弱、模式不够成熟、企业对研发创新的认识不足等问题。所以本文关于制药业上市公司研发投入对企业财务绩效影响的研究具有十分重要的现实意义。本文主要采取文献分析、实证分析和案例分析的方法对制药企业研发投入和企
现代项目管理最主要有两大体系PMBOK与PRINCE2。PMBOK体系从静态的角度看项目,能够很好的把握细节;而PRINCE2则从动态的角度看项目,能够很好的掌控全局。相比PMBOK,研究PRINCE2的课题相对很少,如何在实际的复杂项目中应用PRINCE2体系成为一个值得深入探讨与实践的课题。以数据开发分析为主的传统BI以及大数据项目通常项目周期较长,数据方面的需求变化较大,对于第三方系统的依赖
目的:地方性氟中毒是人群在长期过量摄入氟而导致的慢性全身性疾病,是我国重点防治的地方病之一。过量摄入氟化物可造成骨转换障碍,从而导致氟骨症。成骨细胞的异常增殖和活化在氟骨症的骨转换障碍中起到关键作用。本研究在既往发现CDK4高表达参与氟骨症成骨细胞增殖活化基础上,结合课题组前期高通量测序结果,采用生物信息学软件预测氟暴露人群中差异表达并靶向调控CDK4的miRNA,在人群和体外两个水平分析筛选出的
降水和蒸发是洪水模拟中非常关键的输入数据。当前降水和蒸发的测量方法主要有地面站点观测和遥感观测两种。一般来说地面测站观测精度较高,但是只能获取点尺度上的数据,难以完整地反映降雨和蒸发的空间分布。而遥感观测,可以获得面尺度上的数据。但遥感观测仍存在不确定性较高、时空尺度不匹配等问题需要克服。论文以三江平原七星流域为研究区域,利用多元线性回归和地理加权回归两种方法对热带降雨观测计划数据(Tropica
截止2017年末,国家统计局的数据显示,中国亚健康人群的数量占总人口的比例已超75%。同时,国家卫计委预测,2020年我国人口老龄率将高达17.17%,预估老龄人口的峰值4.87亿或将在2050年到达[1]。党的十九大中明确提出:实施健康中国战略,康养,已上升为国家战略,因此借此契机大力发展乡村康养旅游,增加乡村吸引力。本文通过总结归纳康养景观的相关理论,包括亲生物设计理论、注意力恢复理论、压力缓
本文简要阐述了现阶段用户对洗衣机的新需求:如节能减排、保护环境,健康洗衣,需要更大洗涤容量等,针对以上需求,青岛海尔洗衣机有限公司首创了单桶洗(无外桶)全自动洗衣机,取
随着深度学习领域的飞速发展,基于视频图像的目标检测技术成为监控设备的主要应用之一。但如今对于监控网络中高效的进行目标检测,仍存在着许多挑战。首先目前的监控网络主要
随着互联网和信息技术的不断发展,各种信息纷繁杂乱,并呈爆炸性增长态势,信息过载问题严重。个性化推荐系统作为信息生产者与消费者之间的桥梁,其目的在于缓解信息过载的困境,帮助用户发掘对自己有价值的信息,将信息及时准确地推送给用户,从而实现信息生产者和消费者的共赢。近期的一些研究表明深度学习技术应用在推荐任务中,同样表现出其强大的能力。与传统的推荐算法相比,深度学习使用深层的非线性结构,可以更好地提取用