基于Spark的基因数据聚类分析及可视化

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zhufutao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在对基因数据研究过程中可视化的研究方法体验不够良好,无法直观的观察实验结果,并且针对基因数据聚类分析,对于K值的选择方法不够可靠,使得聚类结果并没有较明显的改善,同时无法使用确定的数值来代表聚类结果,不能直接的反映数据变化情况。本文通过对比利用Spark对于分布式文件系统的数据进行分析与利用普通方法进行数据分析的时间,显示Spark在对数据处理方面的速度优势;同时利用Spark SQL与SparkStreaming实现对于分布式文件系统数据的不间断分析,并且将查询到的上调与下调基因进行可视化分析;针对K均值聚类,计算分析平均欧氏距离与K值变化的关系,并且找到使得平均欧氏距离趋于稳定的拐点,确定K值并且得到聚类结果,对比在正常条件和盐胁迫下的基因表达强度变化情况,得出结论;将高斯混合模型聚类与基因数据分析相结合,得到不同权重下的高斯分布参数,从而得到完整的高斯混合模型公式,利用高斯混合模型图形对比不同条件下的基因数据变化情况,同时可以根据高斯混合模型公式计算图形与x轴所围成的面积大小,也代表数值落在该区域的概率,对比不同条件下的概率变化,从而确定数据变化情况。本文通过基因数据可视化分别使用了折线图与柱状图对数据变化情况进行了更直观的改善,同时通过分析平均欧氏距离与K值的关系得到可靠的聚类结果,使得聚类后的数据生成的图表更加清晰,并且利用高斯混合模型参数进行积分计算,得到数值落在区域范围的概率大小,用区域范围值直观的比较基因数据变化情况。
其他文献
中国是一个多民族国家,有55个少数民族。悠久灿烂的民族历史和文化是滋养民族出版的源泉,是民族出版繁荣与发展的基础。因此,民族出版社的图书一定要坚持民族特色,积极挖掘民
目的:了解粤东地区不同人群丙型肝炎病毒(HCV)感染情况,探讨HCV感染途径。方法:运用酶联免疫吸附试验(ELISA)及荧光定量聚合酶链式反应(FQ-PCR)检测不同人群血清中抗-HCV及HCV-R
本文采用双标记时间分辨荧光免疫分析(DELFIA)检测甲状腺激素水平(T3、T4、TSH、FT3、FT4)并与放射免疫分析(RIA)比较,以评价DELFIA技术的优越性及特异性。
目前国内猪场控制猪流行性腹泻的主要方式是进行返饲,以及结合疫苗免疫。因为该病的净化是一个相对耗时的过程,并且在这个净化过程中任何生物安全操作上的不规范都会导致所有
目的:探讨神经元特异性烯醇化酶(NSE)、肿瘤坏死因子-α(TNF-α)及脂质唾液酸(LSA)在肺癌中的表达及其诊断价值.方法:收集肺癌病人血清78份,良性肺病患者血清32份,正常对照血
目的:探讨了血清CA199在肝硬化和肝癌中的价值.方法:应用放射免疫分析对65例肝硬化和35例肝癌患者进行了血清CA199检测并与35名正常健康人作对照.结果:肝癌组、肝硬化组CA199
暮春三月,江南草长。然而五岭以北的三湘大地却刚刚经历了一场罕见的雨加雪天气,瑟瑟寒风中,我们《出版广角》赴湘采访组一行四人迎着潇潇春雨来到了湖南教育出版社进行采访
目的 研究中药成分槲皮素对慢性肾衰(CRF)大鼠肾脏细胞损坏的保护作用.方法 实验大鼠随机分为3组.CRF组和槲皮素治疗(QT)组以含腺嘌呤饲料喂饲8 w造成CRF;从第15 d开始分别经口给
随着移动互联网的发展,社会已进入大数据时代。大数据技术在促进国家发展与进步的同时,也使得数字鸿沟问题日趋严重。归根结底,数字鸿沟所带来的是关于社会公平的伦理问题。
1995年5月~2002年3月,我院采用颈椎前路减压原位旋转植骨融合术(Cloward法)治疗颈椎疾病患者256例,经随访观察,疗效满意.现将护理体会报告如下.