【摘 要】
:
本文主要基于数据挖掘中的决策树及支持向量机建立单分类器、组合分类器、随机组合分类器和支持向量分类机模型,对白血病细胞的多药耐药性数据进行分类,判断白血病细胞其多药
论文部分内容阅读
本文主要基于数据挖掘中的决策树及支持向量机建立单分类器、组合分类器、随机组合分类器和支持向量分类机模型,对白血病细胞的多药耐药性数据进行分类,判断白血病细胞其多药耐药性是否得到逆转.研究主要内容包括.数据的降维处理.建立多种分类器模型、优化模型参数,降低模型预测误差,对比各模型预测精度,选取最优模型.本文先针对白血病细胞的多药耐药性在逆转剂的作用下的细胞特征数据进行预处理,然后在处理后的数据集上应用和比较决策树、支持向量机、随机森林模型等多种分类算法.数据预处理中,使用去除取值接近于常数的变量、去除高相关性的自变量、剔除异常值、数据标准化处理等方式降低数据维度以优化样本集.在预处理后的数据集上建立单棵决策树模型,比较C4.5、C5.0、CART、Rpart决策树模型预测精度,并可视化操作;建立组合分类器模型,使用Bagging、adaboost算法构建模型,比较构建模型的效率及预测精度,使用加权投票的方式来探究预测结果;建立随机组合分类器,使用随机森林分类算法,通过随机选取测试样本集及单棵决策树,对测试样本集进行预测;建立支持向量分类机模型,寻找一个超平面来对样本集进行分割,寻找到一个最大间隔,对样本集进行分类预测.本文研究结果表明,在对数据进行预处理时,删除冗余的变量降低了样本集的维度,可以节省模型构建时间,并且对模型预测精度影响不大.在所有分类器模型中,随机森林模型表现最好,它的构建模型时间较短,预测精度较高.
其他文献
本文提出了高频网络平均法:利用受控电源来代替电流高频变化的元件。利用它对准谐振形状变换器进行分析,得出了其非线性非时变的等效电路。这一方法简单实用,物理意义鲜明,对于准
本文综合考虑分工环节和附加值创造双重影响,基于增加值替代总出口的改进版出口上游度测算方法,利用WIOD数据测算了行业上游度和出口上游度,并结合出口国内附加值率,对中国价
本文针对当前铁路局货车列尾管理方式相对落后的现状,提出了铁路局列尾管理信息系统的建设目标,对系统用户需求及数据源进行了分析,论述了系统建设的设计方案,介绍了列尾动态
在上市公司经营过程中,高层管理团队的构成以及高管团队成员所掌握的社会资源对于企业绩效将会产生直接影响,不同股权集中度及企业所有制也会对它们之间的关系产生差异性的影
通过研究某离心压缩机系统的稳定性,依据AP1617动力学的稳定性要求先后进行级别Ⅰ和级别Ⅱ稳定性分析,发现转子.轴承系统的稳定性存在问题,提出在压缩机系统上增加消涡结构,提高压
“杂化共聚”是将结构和活性差异很大的乙烯基单体与环状单体共聚合成新型聚合物的方法,是共聚物合成的一条新途径。文中介绍了“杂化共聚”的创新性成果,重点阐述了近5年来
微信公众平台作为移动互联网技术,已经在教育领域得到了广泛应用。基于该平台的功能及优势,通过"吾遥地理"公众平台辅助"区域开发"教学,分析辅助课堂教学效果,浅谈微信公众平台辅
采用紫外-可见分光光度法、红外光谱法和高效液相色谱法,分析了‘菲尔杜德’红树莓多酚粗提液和纯化液的组成成分,同时采用3个体外抗脂质过氧化指标研究了其抗脂质过氧化活性
铁路旅客无障碍服务是无障碍出行服务研究的重要组成部分,随着我国经济的发展与人口老龄化的加快,残障人士、老人和小孩等需要无障碍服务的出行人口大大增多,铁路旅客服务压力大大增加,特别是在一些旅客出行的高峰时期,如寒暑假、春节等节假日期间,经常出现客运人员不足的情况,铁路依靠大面积人工服务已滞后于铁路旅客的出行需求。亟待建立一套专门面向铁路旅客出行服务的无障碍服务系统。本文设计并实现了铁路旅客无障碍服务
设计了一款集收发球功能于一体的机器人。由底盘机构、收供球机构、旋转机构与发球机构4部分构成。使用全向轮作为运动载体,通过带传动实现球的收集和运送。发射准备阶段利用