骨质疏松症风险SNP的识别

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:wenshi_shen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学兴起和快速发展推动了生物学技术的革新并产生了大量的生物学数据。而生物信息学的发展方向是在这些海量的生物学数据中获取在生物学上有用的信息。在人类生命科学领域,研究者面临的首要任务是如何利用生物信息学技术探究人类复杂疾病的致病因素,为根治复杂疾病的方法提供理论依据。骨质疏松症是人类常见的复杂遗传疾病之一,在过去的二十年里,骨质疏松症的遗传分析已经取得了很大的进展。生物信息学的GWAS技术,使我们通过分析获得了大量的骨质疏松症关联的SNP和基因。用生物信息学工具分析骨质疏松症GWAS关联SNP基因,发现它们之间不仅存在着强烈的相互作用,且都与调控骨细胞分化和代谢的基因或通路有关。根据对当前已知的骨质疏松症GWAS关联SNP和基因的特征,我们假设与已知的骨质疏松症GWAS关联SNP特征相似的SNP是骨质疏松症风险SNP,提出了骨质疏松症风险SNP的识别方法。该识别方法的整体框架主要分为两个部分:第一,判断待识别SNP的关联基因是否是骨质疏松症关联基因。我们首先以骨质疏松症GWAS关联基因为训练集,构建这些关联基因和待识别SNP的关联基因的PPI网络,在该网络上用基于马尔可夫链的随机游走算法对待识别SNP的关联基因排名打分,分数大于闽值的基因被判断为骨质疏松症关联基因。第二,用经过悲观错误剪枝法处理的ID3决策树算法对SNP分类。如果待识别SNP的关联基因是骨质疏松症的关联基因,那么在获取该SNP的位置特征后,以已知的骨质疏松症GWAS关联SNP和其位置特征为训练集,用经过悲观错误剪枝法处理的ID3决策树算法对待识别SNP进行分类。若待识别SNP能够被准确归类,那么该SNP是骨质疏松症风险SNP。最后,我们把已知的骨质疏松症GWAS关联SNP和2型糖尿病GWAS关联SNP作为数据集,先用十折交叉验证法分别验方法的两个步骤。最后以ROC曲线为指标验证整个识别方法。实现结果表明该方法是合理准确的。本文提出的骨质疏松症风险SNP的识别方法,实现了用算法自动识别骨质疏松症风险SNP的过程。这为进一步研究风险SNP对骨质疏松症的易感性提供了更高效的途径。
其他文献
早期中国资本市场具有较高的准入门槛,对于公司的盈利、规模都有严格的限制。许多难以满足上市要求的企业为了获取融资渠道以及在公司治理方面的好处,选择登陆海外资本市场。
高铁开通对中国经济的发展产生了日益显著的影响,亟需对其社会经济效应进行研究。学术界对高铁经济效应的研究大多集中于宏观层面,往往忽略对高铁微观作用机制的讨论。全要素
近年来,由于多智能体系统广阔的应用前景,其相关研究已经引起了许多专家的极大兴趣。在多智能体系统的众多研究课题中,一致性是实现多智能体协调控制的基础和前提,是指智能体之间通过信息交互,实现状态与其邻居保持一致。实际中多智能体系统经常处于各种复杂的环境中,并且由于测量的准确度、传感器的精度和环境变化等因素,系统存在建模不确定性,智能体之间的输入可能伴有扰动,也有可能出现网络资源的不足的情况,又或者某个
近年来,量子计算凭借强大的计算能力,受到科学界的广泛关注,吸引越来越多的研究人员投入到量子计算的研究中来。图像在现实生活中的应用已经越来越广泛,研究成果也越来越多,
湖泊富营养化被认为是沉水植物衰退的重要原因,然而对其中蕴含的机制尚不清楚。目前的研究主要集中在高氨氮、低光等单因子或两因子胁迫实验上,关于富营养化水体衍生物质—硫
司马辽太郎(1923~1996)是战后日本著名的历史小说家,大众文学家。其文学作品主要以历史为题材,战争为主题。他在作品中表达的历史观在战后日本普通民众以及社会精英对近代历
为了弄清楚沉积物地球化学异常特征及其对天然气水合物的指示意义,提高巴基斯坦马克兰增生楔海域天然气水合物识别的准确性,论文以青岛海洋地质研究所承担的“环印度洋天然气
光是一种电磁波,其物理属性包括能量和动量,其中动量可以分为线动量和角动量。角动量包括由偏振决定的自旋角动量、由光场空间分布决定的内禀轨道角动量和与光束传播轨道相对
气溶胶是悬浮在大气中的固态和液态颗粒物共同组成的多相体系,它的存在直接影响气候变化,改变地气系统能量平衡。随着国家经济快速增长,环境污染逐渐加重,尤其在工业现场附近
对于长碳链的醇类水溶液、含硫量较高的钢液、液态镓等流体在一定温度条件下,其表面张力随温度升高而增大,此时流体在表面张力梯度驱动下沿着温度梯度方向流动,称为反常热毛