基因表达数据的双向聚类算法的研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户：ydaf7nh9

【摘要】

：

基因芯片的出现给生命科学研究、疾病诊断、新药开发、食品监督等领域带来了革命性的变化,而在一个典型的基因芯片的运作中,会有成千上万的基因表达数据产生,对基因表达数据

【作者】

：

席艳秋

【机构】

：

扬州大学

【出处】

：

扬州大学

【发表日期】

：

2011年期

【关键词】

：

基因表达数据双聚类平均平方残差稳态双簇 KL散度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基因芯片的出现给生命科学研究、疾病诊断、新药开发、食品监督等领域带来了革命性的变化,而在一个典型的基因芯片的运作中,会有成千上万的基因表达数据产生,对基因表达数据的分析是当前生物信息学和数据挖掘领域的研究热点和难点。通常我们对基因表达数据的分析主要是通过使用聚类分析方法以找出基因表达数据矩阵中的显著性结构。由于基因表达数据的双向关联性(基因方向或条件方向),传统聚类方法在分析中就显示出了局限性,它们因只在单方向上进行聚类故仅能找到整个数据集的全局结构信息,而大量的局部结构信息却被丢失掉了,但是具有生物学意义的显著性结构信息往往是内部局部相关联的,所以传统的聚类方法很难精确地反映出基因间的紧密关系。本文主要针对实数型数据与布尔型数据的基因表达中的双聚类问题进行了研究,具体做了以下一些工作：(1)提出了k-means迭代双聚类方法,此算法主要适应于实数集。使用了Cheng和Church算法中的平均平方残差作为打分函数,先进行列集聚类,再在聚类出来的列集上进行行聚类,然后列聚类与行聚类交叉迭代进行,以找出“稳态”双簇。第二步主要对“稳态”双簇进行降Hscore值(平均平方残差),即为删行与删列操作。最后一步为最大化操作,即为加行与加列操作。实验表明：该算法可以同时挖掘出k个双聚类,而不像Cheng和Church算法每次只能挖掘出一个最大的双簇；且更能有效地找出变化较小,共表达水平较高的双聚类簇。此外,我们针对于无闭集双聚类(“稳态”双簇)也提出了一个算法,这个算法因其在列集上首先进行了聚类操作,把它划分成几个相似的子列集,再分别进行行聚类分析。该算法更适合挖掘出一些“瘦长”型的双聚类,双聚类的规模比上一个算法得到的更大型一些。(2)为了更加高效的处理基因表达谱,我们提出了处理布尔型数据的双向聚类算法。我们首先把布尔矩阵双向聚类问题转化为寻找最大块的1矩阵问题,然后通过奇异值分解技术来解析0/1矩阵,并按照奇异值降序排列依次求出对应的行特征向量与列特征向量,截取前k个奇异向量,依次在各个特征空间内进行行特征向量与列特征向量的聚类,直到得到满足阈值要求的1元素子块。该算法比处理实数集更加快速,效率更高。实验结果显示,该算法能够挖掘出包含所有1元素的子矩阵,且能够找出满足1元素个数要求的子矩阵(子矩阵中1的数量尽量多)。(3)提出了基于KL散度的双聚类的打分函数。在k-means迭代双聚类方法中,我们使用平均平方残差与KL散度作为评价函数,而在布尔矩阵的双聚类中,我们提出使用候选簇中的1元素的频率和KL散度来评价双聚类簇。KL散度打分函数对基因数据矩阵进行归一化操作,解决了数据标准化的问题,实验证明它的时间复杂度低于平均平方残差。

其他文献

叶约束最小生成树问题的优化算法研究及应用

最小生成树问题是一个经典的网络优化问题，而实际应用中往往要对生成树加上某种限制，形成了一类有约束的最小生成树问题，如在有n个顶点的图G中求至少带有L片叶子的最小生成树，即

学位

网络优化LCMST问题子集编码遗传算法2-opt领域搜索无约束p叶约束最小生成树

静态图像压缩编码算法的实现研究

本文以基于小波变换的静态图像压缩算法的原理为基础，主要研究了静态图像压缩算法的实现，为其在嵌入式体系结构下的实现奠定基础。　　论文研究了小波分析，多分辨率分析，Mallat

学位

图像压缩编码算法小波变换嵌入式零树小波数据并行算法

一个语义关联模式挖掘系统的设计与实现

随着语义Web的发展，在线的语义数据越来越丰富。面对庞大的由语义对象和它们之间的语义关联构成的数据之网，帮助用户挖掘到数据之网中的语义关联模式进而能够快速有效地构建用

学位

语义Web语义关联模式频繁子图挖掘数据处理

基于多尺度几何分析的静态图像压缩算法实现

本文主要实现了基于混合预处理方法的嵌入式零树块编码算法，其目的是为了让该算法能够在以后的嵌入式体系结构中更好地应用。　　首先，研究了小波变换以及多尺度几何分析方法

学位

图像压缩多尺度几何分析小波变换Contourlet变换嵌入式编码方法

模糊聚类算法的有效性及参数m的研究

在计算机网络化迅猛发展的时代，如何有效、快速地从大量数据中获取人们需要的知识成为许多学者以及研究人员关注的焦点。数据供给能力和数据分析能力间的矛盾日益突出，使得人们

学位

模糊聚类分析聚类有效性数据挖掘模糊c均值算法点密度惩罚

基于树形结构的文档协同编辑一致性控制研究

文档协同编辑是计算机支持的协同工作的重要应用之一，主要是为了实现多人异地同步编辑共享文档。随着分布式技术的不断发展，文档协同编辑工作模式产生了组织分工逐渐细化、人们

学位

文档协同编辑树形结构一致性控制操作转换冲突消解

面向RFID海量数据的图挖掘技术研究

随着科技的进步,射频识别技术(Radio Frequency Identification,RFID)技术已应用于诸如仓储管理与物流、邮件/快运包裹处理、图书管理、医疗保健等领域。RFID技术与互联网、

学位

数据挖掘射频识别频繁路径图挖掘图概化轨迹分段轨迹聚类

一种基于流程面向领域的软件框架

作为快速搭建企业级应用管理平台的重要手段，软件复用技术在全球信息化建设进程中扮演越来越重要的角色，是实现软件工业化、规模化、标准化的重要途径。而软件框架又是实现大规

学位

工作流内嵌于软件多套工时劳动定额管理业务逻辑功能算法Petri网模型WWF工作流.NET构件

维汉双语平行语料库构建技术研究与实现

随着计算机和互联网技术的飞速发展，在自然语言处理领域，以双语平行语料库为基础的研究日益增多。双语平行语料库可被应用于机器翻译、双语词典编纂、词义消歧及跨语言信息检索

学位

机器翻译双语平行语料库网页信息抽取构建技术维吾尔语汉语

实时应急案例库构建方法研究及GIS实现

近年来，突发事件频繁发生，对人类的生命财产安全造成巨大威胁，严重影响整个社会的稳定和经济的发展。提升应急响应能力、构建高效的应急响应决策支持系统一直是近年来许多政府部

学位

电子政务应急案例库案例推理机器学习

基因表达数据的双向聚类算法的研究

与本文相关的学术论文