聚类算法模型的研究及应用

被引量 : 27次 | 上传用户：clear0102

【摘要】

：

生物信息学是计算分子生物学与计算机科学之间的交叉学科。近年来,随着数据挖掘技术发展,生物技术正给整个人类带来前所未有的巨大变化。本文围绕聚类模型及其在生物信息中的

【作者】

：

陈树

【发表日期】

：

2007年01期

【关键词】

：

生物信息基因数据挖掘聚类拓扑覆盖矩阵随机投影

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

生物信息学是计算分子生物学与计算机科学之间的交叉学科。近年来,随着数据挖掘技术发展,生物技术正给整个人类带来前所未有的巨大变化。本文围绕聚类模型及其在生物信息中的应用开展研究,主要内容、贡献和创新包括:(1)微阵列中稠密区的研究稠密区是一个有统计意义的数据模式集合,它能用来标识基因模式和相关样本集合,也可以消除孤立点、噪声及非正常模式有关的基因模式。通过对稠密区特性的研究,可以依据稠密区的特征对其划分为几个不同的类别,进而给出对不同类别的相应算法。进一步对不同大小稠密区分布的研究,进而评测稠密区的生物意义。在具体应用中,采用两个实际的数据集来测试该算法,第一个数据集来自30个批次小试生产β-甘露聚糖酶样本的数据模式,样本浓度由高到低,该算法有效的标识出浓度不同数据模式。第二个数据集来自酵母菌数据集的基因表达,该算法同样有效的标识出表达相似的基因。同时,将该算法和另外四个常用的聚类算法进行对比,在同一合成数据集聚类效果的对比表明该算法有优越的性能。(2)基因网络模块的探测基因和蛋白质交互网络的生物研究表明这些网络由模块组成。模块的识别是理解整个网络结构的关键一步,为此,将结点不相似的测量方法与聚类算法结合起来,从而给出模块的识别方法,更进一步,在拓扑覆盖矩阵的基础上(该方法在很多生物上的应用上得到证实),采用一个结点不相似测量的通用方法,它综合标准的拓扑覆盖矩阵法,并在此基础上与双向层次聚类算法相结合。它主要用于网络模块的标识,也可用于结点连接的度量,它优于基于结点度的连接方法,在分析该算法相关特性的基础上,给出了它在基因表达网络中的适用的原因。最后,通过应用表明,标准的拓扑覆盖矩阵适用于发现较小模块,而采用推广的拓扑覆盖矩阵结合双向层次聚类算法则更适用于发现较大的模块。(3)基于随机投影集合的高维数据聚类研究针对高维数据聚类中如何产生多个低维的基聚类和如何对这些低维的聚类集合进行组合的问题,采用随机投影和双向图划分法,特别在基聚类集合中,采用一种新的基于OPTOC聚类算法。通过在八个数据集上评测集合构造器,结果表明:随机投影生成的集合性能优于其它两个集合构造器生成的集合。通过对四个不同的共识函数在用两种不同的类型的集合上的评测,结果表明:两个基于图形的划分方法性能优于另外两种方法,其中双向图划分法对两个集合基聚类的改善率比较高。(4)基于尺度聚类的研究基于尺度聚类模型的特点在于允许用户直接动态的控制聚类的尺度,即用户从不同的尺度观测数据集,就能得到相应尺度的聚类,且这种尺度是数据集所固有的。它引入聚类的同源算法和分离算法构建目标函数,特别在同源和分离识别方面,采用Renyi熵来表示类内相似度和类间分离度,用尺度参数控制聚类的尺度。在数据集中,用Pearson相关系数作为对象之间相似度的测量,该算法的时间复杂度低于典型的层次聚类和划分聚类算法。该模型在对生物信息、图像的数据集聚类过程中显示它的良好的效果。最后,在总全文进行了总结,提出了有待进一步研究的课题和今后研究工作的重点。

其他文献

一种高锌背景下痕量钴离子浓度分光光度测量法

在分光光度法分析高浓度锌溶液中痕量钴离子浓度的过程中,由于基体离子Zn（Ⅱ）与待测离子Co（Ⅱ）化学性质相近且基体离子浓度过高,导致Co（Ⅱ）的光谱信号与Zn（Ⅱ）的光谱信号重叠,大部分C

期刊

分光光度法高浓度锌液痕量钴离子间隔相关系数法

数据包络分析法在我院护理工作效率评价中的应用

目的探讨数据包络分析法在我院护理工作效率评价中的应用效果。方法收集2012年10月至2013年10月我院10个护理单元的投入指标（在编护士人数、每人每日间接护理工时、年护理器

期刊

护理效率数据包络分析护理管理

试论肖洛霍夫悲剧艺术的三重美学品格

【正】肖洛霍夫是苏联文学史上公认时悲剧大师。在60年的创作生涯中,他始终表现出对于悲剧艺术的执着与偏爱。苏联著名作家阿·托尔斯泰说:“肖洛霍夫……是带着在社会

期刊

肖洛霍夫悲剧冲突哥萨克人悲剧艺术美学品格

农户采纳节水灌溉技术的影响因素及其对策研究

农业推广作为农业科技成果转化为生产力的桥梁和纽带,是现代农业发展不可缺少的重要环节,进入新世纪以来,我国农业发展进入一个崭新的历史阶段。随着生态环境日益成为制约农

学位

农户农户采纳行为节水灌溉技术

新型铜钼分离抑制剂MX在某辉钼矿浮选中的试验研究

为了响应国家环保政策,选矿过程中不用、甚至少用氰化物,针对洛钼集团三道庄矿石在铜钼分离过程中使用氰化物作为抑制剂的问题,进行了新型铜钼分离抑制剂MX代替氰化物的试验

期刊

浮选铜钼分离抑制剂

口译中的长时记忆—提高长时记忆表现的策略

认知心理学兴起于上世纪五十年代,运用信息加工观点,主要研究感知觉、注意、表象、学习记忆、思维以及言语等心理过程或认知过程。认知心理学目前得到迅速发展,其研究成果已

学位

认知长时记忆口译长时记忆的作用影响因素策略

曹妃甸工业区吹填砂土地基的处理研究

真空动力固结法在沿海的大面积软土地基处理工程中得到了较为广泛的推广应用,为水力吹填成陆地基的加固,提供了价廉、快速、质优的地基处理方法。但是国内对真空动力固结法的

学位

地基处理真空动力固结吹填土曹妃甸

高职《花卉栽培》课程教学改革探讨

《花卉栽培》是高职设施农业技术专业的一门核心课程。通过该课程的教学，提高学生的花卉理论认识和实践操作技能，锻炼学生的认知能力、思维分析能力和创新能力，确保向社会输送生

期刊

高职院校花卉栽培教学改革

碳酸钙的仿生合成及形貌表征

碳酸钙作为最广泛的生物无机材料,在工业领域中有着广泛的应用。碳酸钙晶体的仿生合成最近受到研究者们的关注。碳酸钙晶体的晶型、尺寸、形貌等性质与沉淀方法以及添加剂有

学位

仿生合成碳酸钙形貌多糖氨基酸醇定向聚集

天然纳米矿物坡缕石在不同条件下的活化与相变

坡缕石又称为凹凸棒石,是一种具有链层状结构的镁铝硅酸盐矿物,早在19世纪就已被发现。由于坡缕石粘土矿物具有特殊的晶体结构（一维孔道结构）、特殊的物理化学性质（吸附性质、胶

学位

坡缕石热活化酸活化碱活化阳离子吸附阳离子脱吸附沸石分子筛

聚类算法模型的研究及应用

与本文相关的学术论文