Boosting方法在基因微阵列数据判别分析中的应用

来源 :南京医科大学 | 被引量 : 0次 | 上传用户:sibsiufeuhfhkshu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于高通量的“微阵列(Microarray)”技术的迅速发展,给统计学专业人员提供了大量的微阵列数据。这类“小样本、高维度”的资料(m>>n),给传统的分类判别方法带来了前所未有的挑战,Boosting方法作为集成算法中的一员,一直以其“完美”的分类能力吸引着众多的研究者和应用者。 本研究在系统介绍了Boosting的基本思想,以及它的两种算法——AdaBoost和LogitBoost的基本过程的基础上,采用这两种Boosting算法对模拟数据和维度较低的资料建立判别预测模型,并与另两种集成算法(Bagging和Random-Forest)和三种传统判别分析方法(Fisher’s线性判别、Fisher’s二次判别和logistic回归判别)的预测效果进行了比较。 本研究根据基因微阵列数据的特殊性,对两个网络数据库——白血病数据和乳腺癌数据进行了分析,思路如下:(1)使用FDR控制程序校正P值,以P≤0.05或P≤0.01为标准筛选基因变量,使得维度小于样本含量,建立判别预测模型,将Boosting方法与两种集成算法和三种传统的方法相比较;(2)按照P值的排序选择不同数目的基因预测变量,分别建立判别预测模型,考察Boosting的相对优势(包括预测精度和敏感性);(3)提取主成分,作主成分判别分析,考察Boosting方法的优势。以上均用交叉验证思路考察模型的预测效果和预测结果的稳定性。 本研究主要结论: 1.Boosting的总体预测效果普遍优于Bagging、Random-Forest以及传统的
其他文献
臭氧(O3,ozone)是光化学烟雾的主要成分,是空气中的氮氧化物(NOx)、一氧化碳(CO)及烃类化合物在紫外线的作用下发生光化学反应所产生的二次污染物。O3是一种化学性质十分活泼的
在中专学校里,班集体是中专学生成人成材的重要阵地。是学生学会做人、学会求知,学会做事,学会生活的前沿环境。在此同时,班级在对中专学生的教育作用和教育力量也具有潜移默
糖尿病视网膜病变(Diabeticretinopathy,DR)是世界范围内分布极广的一种糖尿病并发症,也是糖尿病(Diabetesmellitus,DM)并发症中最常见且可早期诊断的一种严重的可致盲性眼病,目