聚类算法分析在基因表达数据中的分析应用

被引量 : 12次 | 上传用户：liongliong445

【摘要】

：

随着人类基因组计划的发展，衍生出数以万计的基因和海量级增长的基因序列数据，但是数据并不等于信息知识，却是知识信息的来源。如何从大量的基因表达数据中利用自动分析工具得到

【作者】

：

孙杰

【发表日期】

：

2012年01期

【关键词】

：

基因表达数据数据挖掘聚类分析有效性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人类基因组计划的发展，衍生出数以万计的基因和海量级增长的基因序列数据，但是数据并不等于信息知识，却是知识信息的来源。如何从大量的基因表达数据中利用自动分析工具得到有用的知识是目前主要面临的问题，所以数据的分析方法和工具的开发越来越受到重视。数据挖掘技术已经被广泛的应用到基因表达谱的许多方面，并取得相当的成功。数据挖掘就是从大量的实际应用数据库中提取有用的信息知识，这些知识具有隐藏性、潜在性、未知性。数据挖掘作为一门新型的技术，为生物学家分析数据提供了有效的方法和工具，为基因表达数据分析提供了强有力的手段。数据挖掘方法和工具包括分类与预测、聚类分析、关联分析、序列分析及时间分析、孤立点分析等等。聚类分析作为一种有效的数据分析工具，已广泛地应用于图像处理、信息检索、数据挖掘等领域。利用聚类算法来分析基因表达数据的一个最主要的原因是基因表达数据数目的庞大，而且在生物学知识里具有已知功能基因的数目相对还是很少。聚类分析是指将一组样本依据其相互之间的相似程度归入几个子类中去，根本思想是确定类群，使同一类内的各个体间差异最小，而不同类间的差距最大。本文中介绍了聚类算法的相似性度量准则欧式距离和Pearson相关系数两种参数以及提出一种比例相似性度量准则。同时介绍了外部确定和内部确定两种聚类有效性评价。本文中的聚类算法选用了层次聚类、K均值聚类、自组织映射聚类三种经典算法。层次聚类根据不同类中的相似度准则分为四种不同的连接聚类，然后讨论在两种相似度下的四种层次聚类的有效性的比较。不同的实验迭代次数，在欧式距离下K均值聚类、自组织映射聚类的基因聚类的正确率以及其中较好的一次的聚类的有效性。比较三种算法优缺点提出来一种基于层次聚类和自组织映射聚类的改进算法，根据实验相关数据得出改进算法在某一些程度上的克服原来方法的缺陷，使得体现了改进算法的优点。

其他文献

上海市金山工业区老年体检人群慢性病及相关指标调查

目的了解社区老年人健康体检慢性病检出情况、指标异常分布特征及相关影响因素。方法选取上海市金山工业区社区65岁以上老年人体检资料2,798份。分析高血压、糖尿病、超重或

期刊

老年人慢性病流行病学分析

金属磁记忆定量评估疲劳损伤程度研究

金属磁记忆检测技术（MMMT）作为一门新型的无损检测技术，它与其他常规无损检测技术相比，优势在于能够对铁磁构件进行早期预诊断，能防范在役铁磁结构件由于疲劳突然断裂失效，避免造成

学位

金属磁记忆检测技术疲劳损伤程度相关系数曲面相似系数

MgO/Al2O3吸附剂对CO2动态吸附性能的研究

以γ-Al2O3为载体,采用等体积浸渍法制取MgO/Al2O3吸附剂,利用BET、XRD等表征手段对吸附剂进行表征;并通过固定床测量穿透曲线的方法研究其对CO2动态吸附性能的影响,考察了Mg

期刊

CO2固定床吸附量穿透曲线MgO/Al2O3

半潜式平台电力监控系统设计与实现

海洋钻井平台是海上油气开发生产的基地，平台电力系统是一套独立的发电、输电、配电系统，实时、可靠的电力监控系统对海洋钻井平台有着非常重要的意义。以第六代半潜式钻井海洋

学位

海洋平台电力监控供电模式多智能体IFIX

国产300MW汽轮机凝汽器改造及其经济性分析

期刊

凝汽器端差经济性分析汽轮机凝汽器

金融物流的变迁与发展模式研究

金融物流是物流服务与金融服务相结合的产物，是银行和第三方物流企业进行业务创新的产物，能够为银行和第三方物流企业带来新的利润增长点，能够缓解中小企业融资难的问题，盘活原材

学位

金融物流变迁模式委托代理理论博弈分析

贮藏期间不同部位延边黄牛肉品质的相关性分析

为分析延边黄牛肉品质的相关性,对贮藏期间不同部位延边黄牛肉pH值、表面颜色、滴水损失进行测定。结果表明:贮藏时间对不同部位延边黄牛肉品质影响显著(P<0.05),且随贮藏时

期刊

贮藏不同部位延边黄牛肉品质相关性分析

MW级风电机组动力学性能仿真分析研究

为了研究风电机组的运行特性以及传动链的动力学特征，以提高风电机组的可靠性。论文从整机系统的角度分析了风电机组的运行特性，对传动链的扭振共振问题进行了分析，还分析了塔架

学位

风力发电机传动链扭振法兰螺栓

低碳园林植物景观研究

本论文将杭州西湖风景名胜区内典型的园林植物景观作为基本研究对象,以不同的时间跨度为研究和观测尺度,研究城市园林植物景观的长期固碳效应,从而为低碳城市园林植物景观的

学位

低碳城市园林植物长期固碳效应净固碳量

中央一号文件关注农业生态治理

<正>中共中央、国务院近日印发的《关于加大改革创新力度加快农业现代化建设的若干意见》第一部分提出:加强农业生态治理。实施农业环境突出问题治理总体规划和农业可持续发

期刊

生态治理农村环境保护中央一号文件

聚类算法分析在基因表达数据中的分析应用

与本文相关的学术论文