生物基因表达数据中局部线性模式的挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:iamup
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表达谱基因芯片技术的发展使得快速准确地同时度量成千上万的基因表达值成为可能,因而如何从海量的基因表达数据中挖掘出有价值的基因表达模式逐渐成为近年来生物信息学研究的热点。模式挖掘可以帮助研究人员分析基因表达数据,寻找其中可能暗藏的基因间相互作用关系,从而有助于人类认识基因和利用基因。  国内外现有的模式挖掘方法主要针对简单的同变化趋势模式的挖掘,但是在实际研究中诸如时延模式、变速模式等复杂模式往往更有价值,同时挖掘起来也更加困难。近年有一些新的挖掘复杂模式的方法被提出,但是这些方法有的依赖于相关度计算公式,以致于准确度不高且难以扩展应用;有的算法过于复杂,以致于效率较低。另外,目前已有的方法都将本应属于同一线性模式的数据拆分成若干个子模式,以致于错过了将这些数据整体共同分析从而发现新规律的机会。  本课题对模式挖掘方法进行深入研究,以克服目前模式挖掘方法的不足之处。本课题首先详细研究了模式挖掘方法中各种局部模式之间的关系并探讨其数学模型,从这些数学模型出发,重新对模式挖掘中的局部模式进行划分,提出了线性模式的概念。线性模式更符合生物基因数据及其它场合对模式挖掘的要求,可以给研究人员带来更多启发。本课题还深入剖析了基于矩阵变换的模式挖掘算法,探寻算法背后的数学模型,并探讨了基于矩阵变换的方法与导数之间的关系这一新颖的话题。本课题基于对上述算法的研究为线性模式的挖掘提出了一套行之有效的数学模型和其相应算法SDC(Second Derivative Cluster),同时给出了该数学模型理论上的合理性并通过实现算法所对应系统以验证该算法的正确性。  本课题的创新之处在于引入了一种更符合研究实际的局部模式划分方法;提出了线性模式的概念;将矩阵变换的思想与导数联系到一起,提出了第一个可以挖掘数据中线性模式的算法。  本课题提出的SDC算法不仅可以应用于生物基因数据中的局部线性模式的挖掘,也可以扩展应用到商业信息领域、经济领域等其它领域中。  
其他文献
中文输入法是中文信息处理的重要组成部分,也是中国计算机用户人机交互的关键环节。拼音输入法是现今广大计算机用户最为普遍使用的输入法。我们从中文拼音输入法的性能评测、
随着信息技术的迅速发展,基于J2EE架构的Web系统广泛应用于企业、机构等各领域中,尤其是在安全性要求非常高的电子商务等系统中的大量应用,使得人们对Web应用系统的安全性越
随着互联网的快速发展,恶意代码的种类和数量在不断增多,其编写、传播和利用呈现出趋利化、商业化和组织化的态势,对互联网安全构成重大威胁。在恶意代码分析领域主要存在静态分
随着网络和信息技术的飞速发展,信息系统在工矿企业中的应用越来越广泛,系统所具有的开放性和资源的共享性,极大的方便了使用者,大大提高了工矿企业的工作效率和工作质量,但
本文在深入研究了决策支持理论的基础上,结合数据仓库、数据挖掘和联机分析处理技术,设计并实现了电力营销决策支持系统。电力营销决策属于半结构化的决策范畴,缺乏程序化的
拒绝服务攻击是网络安全的一大威胁,在拒绝服务攻击的各种防御技术中,源追踪问题的研究一直是近年来的一个研究热点。若能够快速准确找到攻击者的位置,在适当位置部署防御措
近些年来,随着网络环境的不断改善,流媒体应用得到了飞速发展。从基于代理服务器的流媒体组播方案到现在比较流行的基于P2P网络的流媒体组播方案,其发展速度十分迅猛。关于流
随着基于构件的软件开发方法的不断发展,构件组装技术与方法研究日益受到重视。如何将特定领域中的构件组装成为更大粒度的构件或应用程序,成为研究的一个热点问题。本文针对
企业实体间关系的抽取是实体关系抽取的一种,是一种典型的信息抽取问题。在MUC和ACE评测的推动下,近年来国内外的实体关系抽取的研究工作取得了巨大进步,研究者提出了众多有
人类对计算能力的需求永无止境,高性能计算水平逐渐成为世界强国竞相追逐的焦点。并行化编译作为高性能计算中不可或缺的一部分,能够识别程序中不同层次、不同粒度的并行性,并自