基于特征贡献度与线性搜索的特征选择方法

来源 :现代计算机 | 被引量 : 0次 | 上传用户:tingyuanzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于大数据技术和常规特征工程的数据预处理方法可以得到适用于机器学习、深度学习等算法模型所需要的数据,但是在数据建模之前对数据特征进行选择和筛选,降低高维数据中的冗余特征以达到最佳模型性能是当今数据科学家们重点研究的内容之一。本文提出了基于XGBoost算法对特征进行贡献度分析作为基础,结合线性搜索的算法对数据进行特征选择,与传统的基于特征空间的搜索算法,具有在更小的搜索空间下找到更优子集的特点。最后讨论了当前基于线性搜索的特征选择的问题和挑战。
其他文献
面向训练语料有限的语音识别任务,立足语音识别基本流程,基于隐马尔科夫模型-高斯混合模型(GMM-HMM)对俄语孤立数字语音进行识别.结合俄语语音特点,分析词语语音结构,归纳了
为解决现有的虚拟实验存在交互形式单一、设备昂贵、沉浸感不足等问题,提出多通道交互的虚拟实验平台。该平台借助增强现实技术实现并支持手势交互、温感与嗅觉多感知通道呈现。围绕平台的结构设计、手势交互的实现以及多感知通道呈现方面三个方面进行阐述。最后,通过两个虚拟实验对平台的易用性与实用性进行验证。结果表明平台交互自然,真实感强,能帮助学生掌握实验知识。
摘 要:为实现微波对羊毛鳞片尖端的精准作用,根据微波辐射的选择性加热规律,选择介电损耗因数远高于羊毛纤维的纳米钛酸钡颗粒,利用超声波震荡将其负载在羊毛鳞片尖端翘角内,以吸收大部分微波辐射能。结果表明:40 kHz超声波在40 ℃预处理40 min时对羊毛纤维的损伤最小,由于超声波震荡作用,羊毛纤维表面缝隙内负载纳米钛酸钡颗粒,再经微波处理后的羊毛纤维鳞片尖端钝化,定向静摩擦效应降低了38.8%,定
TOR是世界上最受欢迎的匿名通信系统,也因此逐渐成为攻击和审查的目标。大量工作研究了TOR对于各类攻击的脆弱性,而攻击者一旦控制了通信链路入口节点,链路两端被观察的概率将大大提高,进而破坏通信双方的匿名性,对用户安全构成严重威胁。通过分析TOR路由选择算法,对受控恶意入口节点进行有效的分配部署来提高受控入口节点被选率。实验表明,当攻击总资源一定时,受控节点带宽设置在53.8 Mbit/s左右更易被用户选择。
摘 要:为拓展聚丙烯纤维材料的应用领域,针对等离子体处理对聚丙烯纤维材料润湿改性的影响进行了研究。将聚丙烯(PP)纤维膜经等离子体处理后,再利用多巴胺(PDA)对其进行了化学接枝改性,并对所制备材料的形貌、化学性能、接枝程度和相对润湿性进行了系统性的表征。结果表明:经等离子体处理后,多巴胺处理对聚丙烯纤维膜的表面润湿性能明显提升,接触角可从80°降低至0°。在等离子体处理过程中,当氧气与氩气的比值
分层文本分类在现实中应用比较广泛,在数据不理想的情况下,充分利用分层结构信息对提高分类效果有很大的帮助。针对警情数据,为了充分利用其现有的分层结构信息,缓解数据严重不均衡的问题,提出了一种基于BERT的迁移分层文本分类模型,利用BERT预训练模型充分提取警情领域相关信息,用于分层文本分类。实验结果表明,利用结构信息和迁移学习对结果都有不同程度的提高,尤其是对数据少的类别。
摘 要:为了利用感性工学来达到最大程度的量化消费者对于女性轻西装款式的感性评价,在感性工学与服装款式結合的背景知识基础上利用SD法将12款典型女性轻西装款式图和12对感性评价形容词设计成电子调查问卷并发放,收回有效问卷55份,通过数据预处理后导入数据分析软件SPSS中对数据进行均值分析、标准差分析、因子分析和聚类分析等来量化消费者对于女性轻西装款式的感性评价。结果表明,女性消费者对不同款式西装的整
摘 要:为了探究织物手感和手指振动信号之间的关系,对手指滑动触摸织物所产生的手指振动信号进行测试,并采用因子分析的方法提取特征量。然后对振动信号特征量和织物手感评价因子进行了相关性分析。通过研究得到能够代表手指触摸织物所受到的振动刺激有6个特征量。特征量与手感评价因子的相关性为:舒适感、柔软感和光滑感与手指经向触摸织物时在80~500 Hz频段内的振动强度呈强负相关;舒适感和柔软感与手指纬向触摸织
差分隐私保护在交通轨迹数据发布领域的应用研究日益增多,如何在保证数据隐私性的同时提高发布数据集的可用性,已成为重要的研究课题。目前,在结合聚类的差分隐私保护算法中,主要是基于K-means聚类算法,但由于需要提前指定K值,因此基于K-means的方法不能很好地适应数据集的变化。提出了一种新的交通轨迹差分隐私保护数据发布方法,该方法结合AP聚类算法(Affinity Propagation Clustering Algorithm)以及豪斯多夫距离,设计指数机制对轨迹点进行聚合映射,以提高轨迹集的数据可用性
在快速发展的信息技术下,信息化技术条件下的政府业务也朝着电子政务的方向发展。针对电子政务系统中跨部门的业务协同与信息系统共享频繁,业务流程描述与系统实现中的流程描述存在差异的问题,基于电子政务的全局性、实用性、统一性原则,利用规范的语言和结构,建立一套符合在政府业务梳理规范下的业务流程管理体系,从而实现业务与系统实现的一致性,并准确把握政府部门业务职责以及部门之间的业务协同和合作的情况,同时在某市人大政务系统得到实际应用。