基于距离加权支持向量回归的递归特征剔除研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:addegoflywzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据的样本数量和特征维度也随之增高,从这些高维数据中选取重要的特征建立精简有效的机器学习模型已经变得十分重要。在机器学习的实际应用中,特征数量往往较多,这些特征中可能有很多特征与要解决的实际问题并不相关,并且过多的特征也会带来计算量大、推广能力差等问题,而特征选择这一过程可以很大程度上避免过拟合现象,降低模型的复杂度,从而达到降低时空复杂度的目的。因此,研究特征选择算法对构建机器学习模型具有非常重要的意义。特征选择是模式识别中关键的数据预处理步骤,是提高学习算法性能的一个必要手段。常见的特征选择方法有很多,但这些方法往往属于通用方法,即它们没有考虑不同机器学习任务的特殊性。但是,有些特征选择方法则是与具体的机器学习模型相结合,并将该模型的建立融入到特征选择过程中,比如包裹法,而包裹法中最常用的方法就是递归特征剔除方法。在本文的研究问题中,主要考虑回归分析领域中的特征选择问题。由于递归特征剔除方法不仅可以实现很好的特征选择效果,同时具有处理高维数据的能力,因此,该方法为本文的研究方向。本文首先对原有的支持向量回归算法进行改进,提出了一种新的回归分析算法,即距离加权支持向量回归算法。该算法对噪声具有很好的鲁棒性,并且不易受到包括支持向量在内的边缘数据分布的影响,因此可以实现比较好的拟合效果。之后,本文基于距离加权支持向量回归算法,实现了一种特殊的递归特征剔除方法。该方法对参数变化不敏感,同时也具有很好的鲁棒性。基于距离加权支持向量的递归特征剔除法主要根据每个特征对距离加权支持向量回归算法的贡献大小进行排序,然后从特征集合中递归地剔除不重要的特征。最后,本文将新提出的方法在真实数据集上与其他常用的特征选择方法进行实验比较,如PCA、逐步回归、LASSO和基于支持向量回归的递归特征剔除法。另外,本文还进行一组随机实验,即将特征集合随机打乱,以此来验证实验的合理性。最终的实验结果表明本文的方法与其他方法相比在UCI数据集上具有更好的特征选择效果。
其他文献
循环取货方式已成为汽车制造商和第三方物流汽车零部件供应物流的主要运营模式之一,循环取货的运营效率和成本是汽车制造商和第三方物流企业共同关注的核心问题,循环取货成功实施的关键取决于车辆装载方案和取货路径的优化,只有将两个环节同时考虑,才能确保规划的取货路径成本最低、效率最高。本文介绍了风神物流循环取货模式的运营现状,并从运作流程、车辆路径规划方法等方面对循环取货模式进行了深度剖析,发现其采用的车辆路
当代社会持续平稳发展,经济结构优化且人才竞争加剧,促使外表形象因素在社会生活中日益重要。普罗大众为了在入学、求职、婚恋等各类场合中获得优势,提高自己的生活品质,开始越来越广泛地利用医疗美容技术改变自己的外貌特征。然而伴随着医疗美容的快速发展,该行业监管力度不足,使得行业内部混乱不堪,由此暴露了法律的滞后性。我国卫生部于2002年5月1日起实施的《医疗美容服务管理办法》属于专门限制约束医疗美容行业乱
砷广泛存在于自然界中。由于人类活动等原因,含砷化合物持续被释放到环境中,导致环境中砷含量不断累积,危害着生物体的健康。环境和生物样品中存在着多种不同的无机和有机砷形态,不同砷形态的环境、生化和毒理学效应不尽相同。因此,与测定砷含量的分析工作相比,砷形态分析能提供更丰富的信息。环境(水、土壤等)和食品(海产品、大米等)样品中砷形态分析可以揭示环境中砷污染程度;生物(如尿液、血液和头发等)样品中砷形态
并联机器人在工业制造自动化生产线上的应用颇为广泛,尤其在食品包装和医药行业等高速拾放场景的生产线上应用更多。Delta机器人作为目前市场上应用最为广泛的一种并联机器人
随着计算机通信技术的迅猛发展,传输信息方式多样化的同时,信息安全问题也日益突出。而秘密共享是增强信息安全性和提高数据保密程度的重要手段之一。秘密共享方案分为两步。第一步是秘密分发,将秘密分成多个包含秘密信息的份额,由参与秘密共享的成员们持有,成员无法在没有其他成员份额信息的情况下就得出秘密。第二步是秘密重构,当参与恢复的成员数量到达门限值时,通过特定的流程,可以得到保管的秘密。可验证的秘密共享方案
医疗卫生监督执法队伍是地方政府增强社会治理方面体系建设不可或缺的一环,是实现健康中国战略的执法保障,是推进行政部门职能转变、加强医疗市场事中监管、事后监管的重点举措,是医疗和公共卫生法治应急监督体系的重要基石。在当前国家大力推进基本医疗卫生制度建设,着力改革和完善医疗卫生事业综合监管体制的大环境下。从区域范围内对医疗卫生监督执法现状及存在问题进行研究,有助于更好地解决医疗卫生监督执法中的实际矛盾,
美国作家安东尼·多尔的小说《所有我们看不见的光》耗时十年完成,2014年一出版即占据《纽约时报》和美国亚马逊畅销榜的榜首,年底被超过30家主流媒体和书店评选为年度最佳小说,于2015年获得普利策奖。本文拟从神话原型视角解读该小说。通过分析意象、母题和人物三方面来诠释战争对人物性格改变产生的作用、影响及其原因。神话原型理论强调发现文学作品中反复出现的意象,叙事结构和人物类型。通过运用神话原形理论,从
在自然繁殖或工业培养过程中,酵母菌会受到高糖条件的制约,导致其生理性能受到影响,酵母细胞自身的渗透调节是其非常重要的生物学反应。普通酵母菌耐受高糖的能力有限,这限制
伴随着中国经济的改革开放进程,人民币汇率制度也不断改革发展,由官方主导到市场主导、由固定不变到灵活调整,适应了不同阶段经济发展的客观要求,也是中国坚持对外开放和国际地位提高的重要体现。当下我国的汇率制度改革步入深水区,国内经济金融体系不断完善,外部环境不确定性增加,深入研究影响汇率制度选择的各类因素,总结各国汇率制度选择的国际经验,并结合中国现实状况进行分析,有助于为人民币汇率制度的进一步改革提供
公元七世纪中叶,由于社会经济发展的需要,吞弥桑布扎留学印度,深造学习。学成之后,以当时的藏语为基础创制了藏语拼音文字。但是,由于社会历史的变革和藏语的发展变化等一系列原因,导致藏语及其文字读音产生了具有浓厚的地域特色的各种方言差异,由最初的高度统一的语言与文字之间的语音逐渐拉大了差距,并形成了一定的对立性关系。本文主要根据藏文的读音和变体中的藏语安多方言,将具有浓厚的地域特色和风俗习惯,独特性语音