基于聚类的单核苷酸多态性位点质量控制方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:dark_zj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单核苷酸多态性(SNP)是第三代遗传标记物,已被广泛应用于生物及医学研究中。全基因组关联研究(GWAS)利用SNP为标记进行病例-对照关联分析,以期发现影响复杂性疾病及生物性状的遗传特征,进而为疾病的早期诊断、个性化治疗、新药研发等提供依据。SNP数据的质量是GWAS取得成功的关键因素。事实上,由于受到实验过程中硬件或者软件等因素的限制,采集到的SNP数据不可避免地存在误差。因此,对SNP位点数据的质量控制是十分必要的。本文主要的研究工作是寻求更有效的SNP位点的质量控制方法,使其更好地服务于GWAS。衡量SNP数据质量的基本参数有三个:基因分型率、次等位基因频率以及哈温平衡检测值,现有的质量控制方法采用的是“有监督”的专家过滤器,人为设置参数阈值。针对这一问题,本文设置了更为严格的质量参数,并利用重置后的参数,提出了两种基于聚类的SNP质量控制算法:(1)基于加权模糊核聚类算法的质控方法。SNP数据集有多个属性,数据集对于正常SNP聚类与噪声SNP聚类存在属性不平衡现象。针对这一问题,本文引入加权模糊核聚类算法,通过动态计算属性间的不平衡性,分别将正常的SNP位点与噪声位点划分到两个类中。对于高维非团状数据集,该算法比传统的聚类算法有更好的效果。实验结果表明加权模糊核聚类算法对于SNP质量控制问题是有效可行的。(2)基于SNN聚类算法的质控方法。针对SNP数据的高维度特点,SNP位点的筛选可分两步进行。首先运用主成分分析法对数据进行降维,并将每个位点映射到二维平面图上,得到位点的分布图;其次,在此分布图上运行SNN聚类,SNN算法能够在含有噪声的数据集中发现不同大小、不同形状及不同密度的空间聚类,自动检测出噪声位点。实验结果验证了这种方法的可行性。
其他文献
遥感技术的出现,使我们能不与研究对象直接接触,通过传感设备来获取观察对象的基本信息。这就避免了一些偏远或险峻的地区信息无法取得的情况,成为至今为止全球范围内动态观测数据的唯一方式,被广泛应用到多个领域,对经济的增长和社会的发展起着很大的催化作用。然而,由于受天气、遥感设备及传输介质的影响,遥感图像在成像和传输的过程中,往往会受到很多噪声的影响,其中最为常见的噪声为高斯噪声、云噪声和雾噪声等。这些噪
WSN(Wireless Sensor Network)是继Internet之后的又一次信息革命,将改变人们的生活,促进生产力的发展,进一步加强信息世界与物质世界之间的联系。WSN由传感器、无线传输模块
硬件实验是计算机或其他专业硬件课程的必备教学环节,是培养学生实际动手能力、工程实践能力以及开发创新能力不可缺少的手段。随着电子设计自动化(EDA,ElectronicDesignAutoma
随着互联网和信息处理技术的飞速发展,电子书、电子报纸、电子邮件等电子文本已成为人们日常生活的一部分,同时文本错误也越来越多。中文文本错误分为真词错误和非词错误。其
随着无线通信技术和移动终端技术的迅速发展,移动终端得到了广泛普及。凭借其易于携带性、灵活的连网方式、人性化的交互界面和丰富的多媒体功能,使得移动终端成为人们与移动
无线网状网(WMN:Wireless Mesh Network)是一种新型的分布式网络形态,是多点到多点的相对静态的网状拓扑结构。它不是传统的节点与基础设施的一跳关系,而是通过邻居节点的多
随着互联网的不断发展和日益普及,网络上的信息量在爆炸性增长,于是搜索引擎成为人们从海量信息中获取所需信息的必要工具。但是,传统搜索引擎自身存在的不足限制了人们对信息的
近年来,云计算技术的快速发展使得信息共享变的更加频繁,而其中的安全问题如隐私数据数据泄露等也在加剧。2011年亚马逊公司数据库服务器中心运行中断事件、2012年苹果公司云
随着我国国民经济水平的不断提高和社会生产力的不断进步,家庭装修选用的陶瓷砖越来越多,人们在选择众多不同品牌及厂家的时候,对陶瓷砖的品种及质量也越来越关注。陶瓷砖作为产
随着社会网络的兴起和流行,它在人们的生活中扮演着越来越重要的角色,对社会网络的研究也引起了人们极大的兴趣。社会网络由节点相互连接而成,而且在网络中通常会存在一些潜