基于投影聚类的无监督表型区分算法研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:jjJJ012689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的顺利完成,不断积累的巨量生物学数据和快速发展的信息学技术,给后基因组时代的生物信息学研究带来了新的挑战。近年来,随着微阵列技术的快速发展,DNA微阵列技术已经在功能基因组学研究中获得了广泛的应用,人们可以在一次实验中同时测量成千上万个基因的表达水平(通过微阵列技术获得的基因表达数据称为微阵列基因表达数据)。这种高通量的技术为基因表达数据的收集提供了方便,同时也给基因表达数据的挖掘提出了严峻的挑战。高通量微阵列技术与手工表型标定方式间的矛盾导致了基因表达数据的获取与表型确定间的不平衡。然而,已有的表型区分方法大多是有监督的,并且通常忽略了基因间广泛存在的相互作用,根据单个基因的独立区分能力划分样本表型,选择相关基因。本文从新的视角,基于投影聚类的思想,提出两个考虑基因间相互关系的无监督表型区分算法USPD1和USPD2。通过将基因表达数据转化为具有负间隔约束的序列数据,强化了基因间的相互关系,利用设计的质量函数,采用深度优先方式遍历样本穷举树,无监督地生成样本表型划分。同时采用高效的削减策略,大大提高了算法的效率。通过将提出算法与现有的以基因表达数据分析为目的的代表性投影聚类算法HARP相比较,证明提出算法的高效性。同时,在五个真实微阵列数据上对提出算法进行验证,证明算法的有效性。本文对基因表达数据的样本表型区分问题进行了深入研究。算法采用数据挖掘的投影聚类方法对样本表型进行无监督划分,同时根据样本表型所对应的p-signature得到确定该样本表型的诊断基因,为疾病诊断和考察疾病的形成原因提供了一个崭新的视角。
其他文献
随着网络数据通信的迅猛发展,尤其是Internet业务量呈爆炸性增长,对数据传输网带宽的需求越来越高。由于波分复用(Wavelength Division Multiplexing, WDM)技术能提供巨大传
凭借着高性能、低功耗的特点,多核处理器在嵌入式实时系统中的应用越来越广泛。然而,由多核实时系统造成的一个最大问题是人们无法对此系统的时间属性做出比较精确的预测。在
无线传感器网络是信息感知和采集的一场革命,在各个领域有着广泛的应用前景,将给人类的生活和生产带来极大的影响。虽然目前已有一些无线传感器网络应用的实例,但由于技术等
随着计算机和网络通信技术的快速发展,Internet已经成为人们生活中不可缺少的一部分。然而,不断扩大的网络规模和复杂的网络结构造成作为域间路由标准的BGP协议面临严重的性
基于P2P的分布式存储技术与传统的集中式存储技术相比,具有容量大,可扩展性好,负载均衡,成本低等优势,完全适应了信息社会的发展趋势,能够满足人们日益增长的存储需求。然而P
对文档进行语义哈希是一种比较常见的加速相似性查找的方法。所谓语义哈希就是将文档进行哈希编码,并且使得在语义上相似的文档能够被映射到相近的哈希编码,即具有较短的海明距
随着计算机、网络技术的飞速发展,以及计算机图形学理论的日渐完善,三维模型已经逐渐成为继声音、图像和视频之后的第四种多媒体数据类型。其数量更是呈现爆炸性的增长,由于
随着计算机技术的飞速发展,数字媒体产业的兴起,视频处理技术逐渐成为数字图像处理和数字媒体领域的研究热点。视频分割技术在视频处理技术中占有很重要的地位,是其它一些视
作为二十一世纪教育改革和发展的主旋律之一,教育信息化早已成为一个热门话题。随着高等教育扩招使各高校的在校学生人数成倍增长。如何能够充分利用紧缺的教学资源,提高其使
分类体系作为知识图谱的骨干组成部分,对整个知识图谱的易用性和连通性具有起到决定性的作用。随着知识图谱应用的日益广泛,国内外都不断涌现出优秀的知识图谱项目。如何为知