基于特征选择的致病SNP识别方法研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:lyx2597758
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代医学研究表明,人类的各种疾病都有与其相对应的致病基因,由于致病基因与内外环境的相互作用诱发了许多常见的复杂疾病。2005年《Science》上发表的关于年龄相关性黄斑变性的GWAS(Genome-Wide Association Studies,GWAS)文章开启了复杂疾病GWAS的研究。虽然单个位点SNP的致病性研究已经取得众多的研究成果,但是这些研究成果并不能完全解释复杂疾病的生物遗传机理。大多数单位点SNP致病的分析方法仅研究位点与疾病间的边际效应,因此与疾病关联性较强的SNP位点被认定为致病位点,然而单位点边际效应较弱,与其他SNP组合起来具有较强致病作用的SNP却易被忽略。越来越多的科学研究表明,SNP间的交互作用在复杂疾病的遗传变异中扮演着极其重要的角色。目前也有一些方法考虑了 SNP间的交互作用,但是对于复杂疾病的研究,由于主效应和交互作用等各种疾病模型的叠加,使得精确定位致病SNP成为一个亟待解决的难题。针对上述问题,本文提出了基于特征选择算法识别致病SNP位点,即通过集成多种特征选择方法和优化算法,达到更为精确地识别致病SNP位点的目的。这种方法不仅兼顾了单位点的主效应和多位点间的交互效应,而且能根据需求调整组合方法,具有很好的灵活性和可拓展性。通过对全基因组单核苷酸多态性致病位点的分析,本文获得如下结论:1、在生物学领域中,随着生物技术的发展,生物数据的增大,特征选择方法已经成为构建模型,分析数据的先决条件。为进一步解决致病SNP位点的识别问题,本文采用了卡方独立性检验、ReliefF、随机森林以及基于粒子群优化的GA-SVM特征选择方法。应用上述四种方法在模拟数据集上进行实验分析,由实验结果可以看出,卡方独立性检验的识别效果较差,虽然该方法对单位点的致病SNP位点的识别有一定作用,但是不能准确找出全部的致病SNP位点。ReliefF依据特征权重向量对SNP位点的致病性进行排名,该方法对交互作用的位点有一定的识别能力,但容易受到噪声数据影响,且在模拟数据上的实验结果与卡方独立性检验实验结果相似,其效果并不显著。随机森林算法通过计算每个SNP位点的基尼值对每个位点的致病性进行排名,该方法能够在高维数据下识别出边缘性较强的位点,且能有效的识别交互作用。测试结果反映出此方法能有效地识别致病SNP。基于粒子群优化的GA-SVM是集成机器学习与优化算法的封装式的特征选择方法,该方法能有效识别具有交互作用的数据集中的致病SNP位点,且能给出特定大小的致病SNP子集,但该方法计算复杂度较高,耗时较长。2、通过对四种特征选择方法在模拟数据集上的实验结果进行对比与分析,本文提出了一种结合随机森林和GA-SVM-PSO的新方法。该方法采用随机森林算法,计算每个SNP位点的基尼重要性值,由排名靠前的SNP位点组成新的SNP子集。在新组成的SNP子集基灿上,运用GA-SVM-PSO算法筛选出致病SNP子集。经模拟数据集与真实数据集的实验验证,本文所提出的方法在识别致病SNP位点上比随机森林、ReliefF、GA-SVM-PSO等方法更为优越,是一种识别常见复杂疾病致病SNP位点的实用方法。
其他文献
根据我国北方地区气候特征,研究了一种建筑围护结构用相变材料。利用二元相图原理,通过步冷曲线法、DSC热分析法制备复合相变材料。选择红色珍珠岩颗粒相变材料,相变范围在19
<正>近日,为确保企业职工基本养老保险待遇按时足额发放,省政府办公厅发布《关于贯彻落实企业职工基本养老保险基金中央调剂制度的实施意见》。意见提出,2018年末暂存各市的
会议
青海省十三届四次全会明确提出了“一优两高”的发展战略,即立足生态保护优先、推动高质量发展、创造高品质生活。旅游是人们继物质生活水平提高后对高品质生活的追求。近年来,基于青海生态立省和全域旅游的大背景,青海省旅游业迎来了发展的春天,目前逐步向高质量发展迈出脚步,而小城镇不仅是旅游业高质量发展的保障和载体,同时也是推进城镇化发展的重点。因而旅游小城镇的建设发展既是新型城镇化建设的主旋律,又符合青海省经
目的分析功能性消化不良患者与健康对照者唾液菌群的差异。方法收集功能性消化不良患者及健康对照者的唾液标本,提取总基因组DNA,采用高通量测序技术对样本中细菌的16SrRNA-V
近日,北京金网五矿网络技术有限责任公司(以下简称金网公司)与北京安泰科信息开发有限公司(以下简称安泰科)就软件与信息服务合作达成协议。此次协议的主要内容为:安泰科与金
<正>2018年12月19日,由国家卫生计生委合理用药专家委员会和中国药师协会联合主办、人民卫生出版社《中国医学前沿杂志(电子版)》编辑部策划、北京专注文化传媒有限公司独家
解剖学是一门形态学科,在全国中等卫生教材<解剖学及组织胚胎学>一书中,有各类图600多幅.在教学中如果简单的运用图谱教学,对学生的感官认识、理解和记忆的效果不是十分理想
采用双环法,研究不同地形条件(坡度、坡位、坡向)、降雨等因子对土壤渗透特征的影响。研究结果表明,土壤渗透速率具有明显的坡面垂直变异规律,随着坡度的增加,土壤的渗透速率
针对国内外嫁接机性价比偏低的问题,该文以华南农业大学的高速嫁接机2JT-1600型流水线式茄果类嫁接机为基础,分别在砧木上苗工位和接穗上苗工位增设嫁接用苗输送链和转接手,