聚类算法分析在基因表达数据中的分析应用

被引量 : 12次 | 上传用户:liongliong445
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的发展,衍生出数以万计的基因和海量级增长的基因序列数据,但是数据并不等于信息知识,却是知识信息的来源。如何从大量的基因表达数据中利用自动分析工具得到有用的知识是目前主要面临的问题,所以数据的分析方法和工具的开发越来越受到重视。数据挖掘技术已经被广泛的应用到基因表达谱的许多方面,并取得相当的成功。数据挖掘就是从大量的实际应用数据库中提取有用的信息知识,这些知识具有隐藏性、潜在性、未知性。数据挖掘作为一门新型的技术,为生物学家分析数据提供了有效的方法和工具,为基因表达数据分析提供了强有力的手段。数据挖掘方法和工具包括分类与预测、聚类分析、关联分析、序列分析及时间分析、孤立点分析等等。聚类分析作为一种有效的数据分析工具,已广泛地应用于图像处理、信息检索、数据挖掘等领域。利用聚类算法来分析基因表达数据的一个最主要的原因是基因表达数据数目的庞大,而且在生物学知识里具有已知功能基因的数目相对还是很少。聚类分析是指将一组样本依据其相互之间的相似程度归入几个子类中去,根本思想是确定类群,使同一类内的各个体间差异最小,而不同类间的差距最大。本文中介绍了聚类算法的相似性度量准则欧式距离和Pearson相关系数两种参数以及提出一种比例相似性度量准则。同时介绍了外部确定和内部确定两种聚类有效性评价。本文中的聚类算法选用了层次聚类、K均值聚类、自组织映射聚类三种经典算法。层次聚类根据不同类中的相似度准则分为四种不同的连接聚类,然后讨论在两种相似度下的四种层次聚类的有效性的比较。不同的实验迭代次数,在欧式距离下K均值聚类、自组织映射聚类的基因聚类的正确率以及其中较好的一次的聚类的有效性。比较三种算法优缺点提出来一种基于层次聚类和自组织映射聚类的改进算法,根据实验相关数据得出改进算法在某一些程度上的克服原来方法的缺陷,使得体现了改进算法的优点。
其他文献
目的了解社区老年人健康体检慢性病检出情况、指标异常分布特征及相关影响因素。方法选取上海市金山工业区社区65岁以上老年人体检资料2,798份。分析高血压、糖尿病、超重或
金属磁记忆检测技术(MMMT)作为一门新型的无损检测技术,它与其他常规无损检测技术相比,优势在于能够对铁磁构件进行早期预诊断,能防范在役铁磁结构件由于疲劳突然断裂失效,避免造成
以γ-Al2O3为载体,采用等体积浸渍法制取MgO/Al2O3吸附剂,利用BET、XRD等表征手段对吸附剂进行表征;并通过固定床测量穿透曲线的方法研究其对CO2动态吸附性能的影响,考察了Mg
海洋钻井平台是海上油气开发生产的基地,平台电力系统是一套独立的发电、输电、配电系统,实时、可靠的电力监控系统对海洋钻井平台有着非常重要的意义。以第六代半潜式钻井海洋
金融物流是物流服务与金融服务相结合的产物,是银行和第三方物流企业进行业务创新的产物,能够为银行和第三方物流企业带来新的利润增长点,能够缓解中小企业融资难的问题,盘活原材
为分析延边黄牛肉品质的相关性,对贮藏期间不同部位延边黄牛肉pH值、表面颜色、滴水损失进行测定。结果表明:贮藏时间对不同部位延边黄牛肉品质影响显著(P<0.05),且随贮藏时
为了研究风电机组的运行特性以及传动链的动力学特征,以提高风电机组的可靠性。论文从整机系统的角度分析了风电机组的运行特性,对传动链的扭振共振问题进行了分析,还分析了塔架
本论文将杭州西湖风景名胜区内典型的园林植物景观作为基本研究对象,以不同的时间跨度为研究和观测尺度,研究城市园林植物景观的长期固碳效应,从而为低碳城市园林植物景观的
<正>中共中央、国务院近日印发的《关于加大改革创新力度加快农业现代化建设的若干意见》第一部分提出:加强农业生态治理。实施农业环境突出问题治理总体规划和农业可持续发