基于谱回归的无监督特征选择算法研究

被引量 : 0次 | 上传用户:jijibabajiji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现实世界中文本、图像、网络和基因数据等高维数据的广泛出现,人们发现在数据挖掘过程中并不是所有的特征都是重要的和有用的,在这类数据集中,有些特征是冗余的甚至是不相关的。为了提高数据挖掘的质量,常常先对数据进行预处理。特征选择是常用的数据预处理的方法之一,它是通过一定的算法去除这些冗余和不相关特征,选择原始数据的重要特征子集。降维选择后的特征能够提高聚类的速度以及优化聚类结果。特征选择可以根据特征选择的原始数据有无类标签分为有监督特征选择和无监督特征选择。有监督特征选择是根据特征与类标签和特征与特征间的相关性来判断特征子集的优劣。而现实中的数据多数是不带类信息的,因此无监督特征选择成为了当前的一个研究热点。传统的无监督特征选择方法在特征选择过程中改变了数据的流形,特征选择后的子集丢失了原有的类信息,失去了与原始数据的对应关系,导致聚类的效果不佳。本文利用流行学习和L1正则化的原理,提出一种基于谱回归的无监督特征选择方法,利用拉普拉斯矩阵映射获得与原始数据对应的特征空间数据,在此基础上进行拟合处理,并获得特征重要性系数。大量实验结果表明基于谱回归的方法对保存特征的类信息具有很好的效果。
其他文献
随着行为公司财务理论的兴起,管理者自身的一些特点,如管理者的年龄、学历和心理等,对上市公司的政策制定的影响越来越被学术界重视。自21世纪以来,有关管理者特质对公司政策
近年来,我国金融体系改革不断深入,企业融资渠道不断创新。然而,不可否认,银行贷款仍是我国企业融资的最主要方式之一。银行贷款具有控制企业自由现金流、向外界传递积极的公
电能在我国的社会和经济发展中起着举足轻重的地位,为实现电能的合理开发与利用,我国正在推行智能电网的建设,而电能表作为智能电网的终端,对电能的统计和管理起着非常重要的作用
基于数据的机器学习方法以客观存在的事物为对象,研究数据的客观规律,实现数据的分类和预测。极限学习机作为一类机器学习方法,以简单易用、有效的单隐层前馈神经网络学习算
加快城乡统筹发展,加速城市化进程,推动社区和社区服务体系建设是当前人民群众密切关注的重要问题,也是我们党和政府十分关心的重点工作。党的十七大报告对城乡社区建设作了
<正>2017年10月,当地时间19日晚上,第44届世界技能大赛在阿布扎比闭幕,上海城市建设工程学校园林绿化专业学生潘沈涵摘得花艺项目金牌;四川交通职业技术学院汽车工程系学生杨
长期以来,对科学地评价、继承传统放牧制度中的科学合理成分,有认识上的偏见和误区,其中包括放弃了有利于牧草再生的轮牧制度,维系与草原共生的畜群管理制度,保持草原生态完整性的
目的分析腹腔镜联合纤维胆道镜治疗老年胆总管结石对患者及胃肠功能的影响。方法 50例老年胆总管结石患者,随机分为对照组与观察组,每组25例。对照组实施传统开腹术,观察组实
在火炮发射过程中,抽筒子在冲击载荷作用下,经常产生疲劳断裂。为了实现有针对性的预防性维修,提出了一种冲击载荷作用下基于协同仿真技术的不规则零部件疲劳寿命预测方法。基于
在农村城镇化水平和工业化进程的不断加快背景下,土地供需矛盾日益激化,已成为影响我国经济社会可持续发展不可忽视的瓶颈问题。而且由于历史的原因,自发形成的农村居民点分