基于随机森林和ReliefF的致病SNP识别方法

被引量 : 0次 | 上传用户:teamster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联研究的主要目标是识别与常见复杂疾病有关的单核苷酸多态性,其中传统的研究使用单位点统计测试来识别位点与疾病的关联性,然而,常见复杂疾病被认为是多个遗传因子和它们的交互作用导致的。在边缘效应很弱的情况下,现有的一些致病位点识别方法的识别效果很差,并且,这些方法识别交互作用变异需要遍历所有的位点组合,这将造成很大的计算负担。随机森林是一种机器学习方法,可以用来识别致病SNP位点,它使用自助采样方法产生多个数据集,对每个数据集用决策树进行训练,决策树可以选用CART,随机森林能够计算变量重要性值对遗传因子进行排名,变量重要性值包括基尼重要性值和置换重要性值。研究表明随机森林在识别致病位点上是一种很有效的方法,随机森林能够在高维数据下很好地捕捉到边缘效应,但是不能很有效地识别交互作用效应,随着遗传变异数目的减少,随机森林识别交互作用的能力逐渐增强。Relief是另外一种有效的特征过滤方法,可以通过权重来对特征进行排名,ReliefF是对Relief方法的改进,将最近邻的个数从1个增加到k个。最大假设间隔理论已经证明了ReliefF的有效性,并且产生了一些类似ReliefF的特征排名方法。ReliefF主要用来检测有很强的交互作用的致病位点,但是ReliefF具有对噪声敏感的缺点。本文针对全基因组单核苷酸多态性致病位点的分析和识别进行了研究,取得的创新性成果如下:1.为了提高检测位点交互作用的能力,本文提出了一种结合随机森林和ReliefF的后向缩减排序方法。该方法通过后向缩减的方法来迭代去除排名靠后的SNP位点,每次迭代时,先用ReliefF方法进行排名,对排名末尾的一定比例的位点使用随机森林进行排名,然后过滤掉随机森林排名末尾的一些位点,这种迭代方式能够使交互作用的位点被ReliefF先筛选出来,然后用随机森林将边缘效应高的位点筛选出来,最后过滤掉剩下的位点。2.本文通过研究随机森林基尼重要性值与ReliefF权重的关系,发现它们的权重更新公式中包含类似因子,类似线性回归中弹性网的L2范式和L1范式,本文依据该关系提出了另一种结合随机森林和ReliefF的弹性网方法,该方法同样使用了后向缩减的方法,每次迭代时将随机森林和ReliefF得到的权重进行加权平均,利用该加权值对位点进行排名,去掉排名末尾的位点。通过大量模拟数据和真实数据的实验验证,表明所提出的两种方法在识别致病位点上比随机森林和ReliefF更优越,是一种识别常见复杂疾病致病SNP位点的实用方法。
其他文献
研制了在线检测氘基体中痕量氦的分析装置,包括气体进样部分、锆铝泵氘氦分离系统和四极质谱仪。研究结果表明,在线分析方法的氦-4检出限可达4×10~8个原子。
并联机器人具有精度高、负载大等优点,在对工作空间要求不高而对运动精度要求高的场合应用广泛。并联机器人由多条并行的运动支链组成。由于其结构的复杂性,并且存在奇异性问
<正>心理学研究发现,在人际知觉过程中,有关他人信息输入的先后顺序有重要意义,最先接受的信息占优势,对人际知觉的作用最大。这种最先接受的信息所引起的心理效应,就叫作首
介绍了一种变温辐照加速评估双极电路低剂量率辐照损伤增强效应的新实验方法,并对各种实验现象的潜在机理进行了分析。结果显示,阶跃降低辐照温度的变温辐照法,不仅能较好地
本文概述了四种油水饱和度分析方法,及不同方法对岩心中已知水的蒸发率和萃取率,研究了不同油水饱和度分析方法的适用范围与优缺点,探讨了提高油水饱和度分析准确度的措施。
<正>或许是生性贪吃,站在成都的街头,眼前不时叠现出回锅肉的影子,耳畔萦绕着巴蜀那句民谣:"入蜀必吃回锅肉"!源远流长、博大精深的川菜堪称"一菜一格,百菜百味",拥有数十个
本文所计算的核反应堆压力容器是保证核安全的一道重要屏障,因此,要参照相应的规范和标准对其进行强度方面的分析和校核.通过有限元软件ANSYS建立压力容器的三维模型,计算压
自治理论、新公共管理理论及治理理论为中国农村社区管理体制的改革和创新提供了不同的研究视野,有必要对上述理论进行整合以便提出更加完善、更具现实意义的分析框架。同时,
根据4 mSiC主镜的结构和材料特性,设计了带有12个底支撑杆的主镜起吊装置。首先确定了起吊装置主体构成包括主体框架、底支撑组件、侧支撑、上压紧等组件。其次运用有限元建
根据低渗透气藏生产动态及渗流特征 ,分析应用弹性二相法、压降法确定其动态储量的适用条件。低渗透气井产量过大使气藏供气能力不足时 ,出现的“假拟稳态”会造成用弹性二相