应用PCA和K-means算法识别阿尔茨海默病致病基因

被引量 : 7次 | 上传用户:goeas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阿尔茨海默病(AD)是痴呆最常见的形式,目前已经被证实的与其相关的致病基因有淀粉样蛋白前体(APP)、载脂蛋白E(ApoE4)、早老素1(PS1)、早老素2(PS2)和tau蛋白。为了深入理解它的形成机制,DNA微阵列表达数据分析就显得非常重要。常用的数据分析方法有很多,如主成分分析(PCA)——一种广泛应用于无监督降维的统计学方法;K均值聚类算法(K-means)——无监督学习任务中的一种常用的数据聚类方法,但是这种方法的缺点是对类个数和质心点选取具有很强的依赖性。本文基于K均值聚类算法的缺点,提出了一种改进方法。首先应用PCA对给定基因数据进行降维,并确定基因类的个数以及类对应的中心。然后,把从PCA获得的结果应用在K均值聚类算法上,来识别AD病的候选基因。最后,本文识别出38个候选基因,其中有8个基因已经得到其他团队研究的支持。本文以已知的致病基因为中心,结合主成分分析算法和K均值聚类算法,找出与已知致病基因相关的候选基因。主要内容如下:第一,阐述了阿尔茨海默病、基因芯片技术和寻找阿尔茨海默病致病基因的研究现状。第二,提出一维分类法,结合主成分分析算法和K均值聚类算法设计了新的算法。第三,运用本文的算法,我们找到了已知致病基因的伴随基因和孤立点,并将其作为阿尔茨海默病的候选致病基因。
其他文献
研究了以木薯淀粉为原料、以高碘酸钠为氧化剂合成双醛淀粉的工艺条件。通过对不同氧化度双醛淀粉的红外光谱和结晶研究 ,对制备DAS的反应进程进行了探讨。结果表明 ,根据需
华东沿海地区从事准公共产品生产经营活动的新兴事业组织——民办非企业单位已初具规模、影响渐大。近年来对“民办事业”(民办非企业单位)单位的行业管理、政策扶持和政治引
<正> 产后缺乳是指产妇在哺乳期间,乳汁分泌不足或完全缺乳。笔者在临床中运用针刺及针药结合的方法,治疗产后缺乳52例,取得较好疗效,现报告如下:一般资料本组52例,年龄在23
期刊
<正>区划法(zoning ordinance、zoning act或zoning law)是西方许多国家的地方政府用法律手段来管理土地利用和建设的一种规划法。它将土地按不同利用性质分类,对不同类别的
<正>向谁放权——向市场放权、社会放权、地方放权民众对政府机构改革翘首以盼,概因当前部分政府职能分配不合理,其与社会、市场的关系定位不清,影响甚至阻碍了社会发展。13
图像数据量庞大,而水声信道的传输能力有限,如果想要实时的显示出图像声呐所采集的图像,就必须先对图像数据进行压缩。本文应用了Verilog HDL通过Altera公司的Quartus II9.0设计
激励在学校学生管理中具有十分重要的意义。表率式激励、关心式激励、满足式激励、目标式激励、主人翁式激励、制度式激励等激励手段是学校学生管理中经常运用的激励方法。适
<正>烧伤在日常生活中是极为常见的,烧伤后必须要及早处理,并且方法要得当,再加上很好的外科护理即可很快痊愈[1]。但是,如果烧伤后没有尽早得到妥善处理以及正确护理,很容易
目的探讨老年壶腹部癌切除后对生存期造成影响的相关因素。方法选择我院2001年至2011年收治的壶腹部癌老年患者30例,对其切除术后对长期生存造成影响的因素进行分析。结果本