基于随机搜索策略的特征选择算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:guanyucomputer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物科学技术的快速发展,产生了海量复杂的生物数据;同时生物信息数据特征维数通常会比较高。高维、复杂的生物数据的分析处理需求促进了数据挖掘、统计分析等方法的高速发展。生物信息数据中经常包含噪音变量和无关特征,从复杂的高维生物数据中挖掘出富含信息的特征,滤除噪音,对探究生物问题的本质具有重要的意义。在数据挖掘技术中,特征选择技术是一种有效的高维数据的降维方法,近些年已经被广泛地应用到生物信息数据的分析处理当中。本文提出的改进的基于职业网球选手排名的特征选择算法(Modified Professional Tennis Player Ranking,MPTPR)是一种基于随机搜索的特征选择算法,它是在基于职业网球选手排名的特征选择算法(Professional Tennis Player Ranking,PTPR)基础上,结合了轮盘赌算法。PTPR算法分别从种子集和非种子集中以等概率抽取特征,而MPTPR算法分别在种子集和非种子集中加入了轮盘赌机制,使得两个集合中得分相对较高的特征有较高的概率被抽取参与下一轮的评价。本文在8个公共数据集上将该算法与原始的算法进行比较,实验结果表明在大部分数据集上,MPTPR算法得到特征的分类性能要优于PTPR算法得到的特征。一种基于对称不确定性和k近邻分类器结合的特征选择算法(Symmetrical Uncertainty-k Nearest Neighbor,SU-KNN)也是基于随机搜索策略的特征选择算法。该算法首先从特征集合中随机抽取多个特征子集,对于每个特征子集,使用kNN分类器得到的准确率作为评价指标对特征子集进行前向搜索,保留搜索过程中准确率最高的特征子集,计算特征在所有搜索到的子集上的平均准确率得分,结合其对称不确定性对特征进行综合的评价。本文在8个公共数据集上对该算法的性能进行测试,结果表明在大部分数据集上,SU-KNN算法得到特征的分类能力要优于其他常用的Filter特征选择方法所选出的特征。本文提出的两种特征选择方法都基于随机搜索策略,相比与SU-KNN算法,MPTPR算法结合了轮盘赌算法对特征进行抽取。在对特征进行重要性评价时,两个算法的评价方式是不同的,MPTPR算法使用决策树来对特征进行评价,SU-KNN算法使用k近邻分类器对特征进行评价。两个算法最终分别对每个特征进行评价打分,根据特征得分给出最后的特征排名,本文在8个公共数据集上对两种算法进行性能上的比较。
其他文献
随着信息化时代和移动通信技术的高速向前发展,多媒体业务服务作为信息化建设不可或缺的组成部分,逐渐成为通信系统中的业务主体。面对社会对多媒体数据业务服务质量逐渐提高
近年来,我国经济发展迅速,各类企业如雨后春笋层出不穷,人才需求量显著提高。与此同时,就业问题也吸引着整个社会的目光。在此背景下,本次翻译实践报告选用了《招募、面试、甄选和入职培训》一书的前两章。它为企业招聘和毕业生择业提供了有价值的信息,有助于在校生培养职业技能以适应社会的需要,使毕业生与企业实现双赢,具有很高现实意义和翻译价值。本报告共分为四个章节,第一章为任务描述,笔者主要介绍了本次翻译任务的
随着GNSS卫星导航系统的不断发展,其在高速发展的铁路领域中的应用也不断发展。使用GNSS卫星导航系统的同时也存在着易受干扰和卫星完好性的问题。使用卫星导航时的卫星信号
云计算技术在大数据时代完全颠覆了传统数据计算存储模式,是一种新型的计算服务模型,随着云计算服务的用户越来越多,数据中心规模也越来越大,数据中心的资源利用率低和能耗问
高光谱仪器的成像原理决定了其成像数据能容纳更多地物特征,信息丰富,这给地物分类带来了极大的便利,但同时也导致分类算法运行速度慢、耗时长。传统的遥感图像分类方法难以
随着多媒体技术的迅猛发展,图像和视频信息已经渗透到人们日常生活的方方面面,并且图像识别技术在近年来被广泛应用,在不同领域里占有着极其重要的地位。同时,图像和视频数据
近年来,随着全球各国的联系日益紧密,越来越多中国学生选择出国留学。吉尔吉斯斯坦作为“一带一路”沿线国家,成为越来越多人留学的选择。当然,出国留学并非易事,这些中国留学生在求学的同时也面临着来自文化碰撞的压力,如何克服这些压力,更好地适应留学生活就显得格外重要。该论文以“吉尔吉斯斯坦中国留学生跨文化生活适应”为题,从衣着打扮、饮食、住宿、交通、气候环境和校园生活六个方面展开调查,对140位在吉尔吉斯
学位
目的:抑瘤素M(Oncostatin M,OSM)是细胞因子白介素6(Interleukin,IL-6)家族成员,研究发现,OSM作为一种细胞调节因子与细胞的生存、增殖和分化有着密切的关系,大量研究证实OSM具有促进骨形成的作用。抑瘤素M受体(Oncostatin M receptor,OSMR)是OSM的受体之一,其分布十分广泛,存在于不同的细胞中。目前关于OSMR对骨髓间充质干细胞成骨分化的调
伴随着国防和军队改革的深入实施,退役军官转业安置面临着诸多新挑战。天津作为直辖市之一,因其政治影响力、经济发展水平、社会保障水平和地理位置等因素,退役军官转业安置首选天津的倾向性增加,与往年相比较多的安置人数给天津的退役军官转业安置工作带来很大压力。在改革背景下,如何通过改进工作,推进党在新形势下强军目标的实现,缓解天津市地方政府安置压力高效完成退役军官转业安置工作,发挥退役军官特长继续为经济社会
并联机构具有速度快、精度高、承载能力强等优点,在工业领域担任着越来越重要的角色。由于制造精度限制、装配误差以及使用过程中的磨损,并联机构各个运动副中均会不可避免的产生间隙,不同类型和不同数量的运动副间隙对机构动力学响应的影响非常复杂,从而影响机构的精度和稳定性,因此研究考虑多种运动副间隙的空间并联机构动力学具有重要的意义。本文以4UPS-UPU空间并联机构为研究对象,建立了刚体动力学模型与考虑多球