高维肺癌病例-对照研究资料的随机森林降维分析

来源 :中华预防医学杂志 | 被引量 : 0次 | 上传用户:kerchi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的 探讨随机森林算法在肺癌高维病例-对照资料分析中的应用效果.方法 选取500例医院来源肺癌患者作为病例组,以517名社区来源对照人群作为对照组,每名研究对象均常规采集静脉抗凝血5 ml,位点基因型通过GoldenGate定制芯片平台分型,经筛选获得399个SNP位点,先利用随机森林算法进行降维,再用传统的logistic回归对降维后的变量进行分析,并采用受试者工作特征曲线(ROC)曲线下面积(AUC)分析多个SNP位点与肺癌的遗传易感性.结果 经随机森林算法筛得50个平均重要性得分最高且错误率最低的变量,其中环境变量(吸烟、年龄分组、性别)的重要性得分均位于前20,分别为4.05、3.12、1.16;在调整3个环境变量后,经阳性结果错误率(FDR)法进行多重性校正,结果仍有统计学意义的SNP位点有6个(FDR-P<0.05),而如果直接采用传统logistic回归分析,则无法发现有统计学意义的SNP位点.对于2个ROC曲线(分别为只包含环境变量模型ROC曲线、包含环境变量和SNP位点模型的ROC曲线)AUC(分别为0.6491±0.0172、0.6811±0.0166)的似然比检验结果表明,6个SNP位点与肺癌的关联性有统计学意义(X2=43.82,p=3.6×10-11).结论 利用随机森林算法先剔除高维数据的噪声位点,再利用logistic回归分析,可提高检验效能,优于直接利用logistic回归分析.
其他文献
针对图像聚类中数据量大、部分重叠等问题,提出一种基于滑动窗口的多标记传播聚类算法。首先根据图像距离计算图像间的相似度,设定阈值将相似度转变为链接,构造出一个无向图;然后应用基于滑动窗口的多标记传播算法对无向图进行社区划分。滑动窗口可以存放多个标记,从而一个图像可以归属于多个类别。对公开网络数据和搜索引擎返回的真实图像数据进行实验,结果表明,该方法能有效发现具有重叠划分的簇,且簇的意义比较明确。
泛素-蛋白酶体通路(ubiquitin-proteasome pathway,UPP)是生物体内进行蛋白质选择性降解的重要途径之一,它广泛参与多种病理生理过程,如细胞周期调控以及信号转导、细胞凋亡
针对艾萨炉熔炼过程中炉子容易出现故障,但故障判断困难的问题,提出了一种融合模糊C均值聚类特征样本KPCA和稀疏LSSVM的故障检测模型。首先基于模糊C均值聚类算法获得样本的
采用B3LYP/6-31++G**方法研究了Cu(Ⅱ)对甘二肽分子的作用。优化得到16种稳定的配合物构型,探讨了配位型式和配位原子的相对活性,阐述了Cu(Ⅱ)对甘二肽性质的影响。主要结果
利用水热法并经过退火煅烧制备了白光LED用正交相Gd2( MoO4)3∶Dy3+荧光粉,用X射线衍射仪和扫描电子显微镜对样品的结构和微观形貌进行表征,利用荧光光谱对其发光性质进行了
群众文化活动的组织与开展,与基层乡镇的所有人民息息相关,是文化工作的中关键的内容,同时也是比较有难度的内容,而且又是一项长远的工作。本文就针对基层群众文化活动的组织开展
针对过程工业普遍存在的扰动和不确定性动态对控制系统经济性能的影响,依据控制要求对过程变量设置相应的机会约束条件来处理这一问题,并将经济性能评估问题转化为一系列不确
高温氟化物挥发法是一种用于分离和获取高纯度铀的核燃料干法分离工艺.该工艺技术成熟,分离得到的铀品质好,但因高温氟化的反应条件对设备材质要求苛刻,该方法在乏燃料后处理
在GT1-7细胞用实时定量PCR检测腺苷酸活化的蛋白激酶(AMPK)对KiSS-1mRNA水平的影响,以报告基因技术检测KiSS-1基因启动子的活性,用Western印迹法检测AMPK对转录因子SP1蛋白表
研究了一类潜伏期、染病期均具传染力且有不同饱和接触率C1(N)和C2(N)的SEIS传染病模型,得到了判断疾病流行与否的基本再生数R0.利用周期轨道轨道稳定性和Poincare-Bendixson