TSP算法及其应用研究

被引量 : 0次 | 上传用户:shiqingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在系统生物学中,从大量的数据中识别对所研究问题具有丰富价值的信息是一个十分重要的课题。TSP (Top Scoring Pair)算法是一种基于对“特征对”进行评价且利用得分最高的的“特征对”建立分类器的算法。由于其简单可行以及结果容易解释等优点使其在基因组学数据分析领域已经成为较有利的工具。k-TSP是基于TSP算法的一个拓展,其与TSP算法最明显的区别在于k-TSP算法不是选择一对特征,而是选择“k”对。本文改进了TSP/k-TSP算法的排名准则,使其更能精准的挑选出具有区分能力的特征,与此同时本文对判定准则也进行了相应的修改以改进模型的预测能力。本文使用8个公共数据集,通过与改进前的TSP算法、随机森林、支持向量机的比较,验证了改进后的TSP算法确实是有效的。并且将修改后的算法应用在了肝病血清数据上,通过实验验证知道改进后的算法无论从分类性能还是从特征选择的能力上都得到了提高。本文利用“特征对”构造新变量的方式对所研究问题进行了详细分析。基于改进后的算法共选出27对特征,通过PCA分析最终样本被较为明显的区分开。随机森林是由一棵棵的树状结构的判定规则(决策树)构成。选择区分效果最好的特征作为该节点的判别特征,然后继续生长就这样构造一棵棵“树”,再由多棵“树”构成随机森林。本文将TSP算法对“特征对”的评价融入到决策树节点的建立中提出了TSP-RF算法。在随机森林的每个节点产生的过程中,由其随机挑选的特征子集和当前样本组成了数据矩阵,通过TSP算法可以利用该矩阵计算出得分最高的“特征对”,用该“特征对”建立分类模型与单特征的分类模型进行比较,性能更优者用于结点分裂。本文通过12个公共数据集(6个低维、6个高维)对TSP-RF算法分类性能进行验证,TSP-RF算法比较于RF算法分类性能在9个数据集上得到了提高。随机森林比较重要的两个方面是强度与相关性:单棵决策树的强度越高越好,决策树之间的相关性越低越好。通过强度与相关性的分析,对该算法与随机森林算法进行比较分析,得出的结论是在强度没有明显变化的情况下,相关性在大多数的数据集上得到了较为明显减弱,通过实验得知该算法在高维小样本上表现出更好的性能。
其他文献
近年来,随着化石燃料的燃烧及机动车尾气的大量排放,氮氧化物的危害日益严峻,目前研究最多也最有应用前景的是脱硝技术是选择性催化还原(NH3-SCR)技术,V2O5-WO3/TiO2催化剂已
塔机是一种常见的起重机械,常用于造船、建筑等场合。塔机的使用可以大大提高工人的工作效率。为了应对现在建筑业对塔机性能要求的提高,塔机趋于大型化。塔机的大型化给建筑
当前,现代社会快速发展,对于物流货运的需求快速增长,物流管理系统的作用日益显著。不仅是对于物流企业,对于消费者,优秀的物流管理系统也提供了快速的信息共享与发布平台。
组织是企业发展的基本载体,组织结构是企业运营的基础框架,组织结构设计的合理性直接影响企业的生存与发展。在组织结构理论中,存在着很多组织结构模式,每一种模式都有自己的
随着科技、经济、文化的发展,人民生活水平的提高,人们的消费模式和生活方式已经发生了巨大的改变。尤其是互联网技术迅速的发展,使网络的重要性逐渐被我们所认识,网络营销与
随着国民经济的持续快速增长,以及国家对汽车产业的宏观牵引,城市的汽车数量也急剧增长。不但给动态交通而且也给静态交通带来了很多难题,其中停车便是其中的难题之一。昆明
中小企业是企业中的主力军,其发展情况直接关系着国民经济的健康发展。随着外界环境的不断变化,不确定性因素增多,中小企业面临的风险无处不在。我国中小企业的管理水平本身就比
<正>幼时读《水浒传》,对武大郎所卖"炊饼"究竟为何物,百索不得其解。后来看到有学者考证云,"炊饼"本即"蒸饼",宋代为避仁宗赵祯的名讳,便把"蒸饼"说成"炊饼"。这一说法已经
在欧美等西方国家,博物馆被看做是“儿童最重要的教育资源和最值得信赖的信息资源”之一。而我国,儿童在传统博物馆中常常容易受到忽视。近年来如何拉近博物馆与儿童的距离,
在移动互联网和网络新媒体不断走向成熟的今天,平面媒体面临着生死攸关的考验。平面媒体传统的信息生产方式已经逐渐被时代所淘汰,受众接受信息的方式较之从前也发生了天翻地