基因表达数据的频繁闭合项集挖掘算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:baofeifly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达数据蕴含丰富的生物信息,但由于其高维且数据量大的特点,生物信息的挖掘成为极具挑战性的课题。关联分析由于形式简单且结果易于理解,已逐渐成为基因表达数据重要的分析方法之一。频繁闭合项集挖掘是关联分析中的重点和难点之一。本文对基因表达数据中频繁闭合项集挖掘算法做了全面深入的研究。针对当前算法中存在的一些不足提出改进算法。针对目前基因表达数据的频繁闭合项集挖掘均需先设定最小支持度,提出挖掘基因表达数据中top-k频繁闭合项集问题,并设计了相关算法。本文主要研究工作如下:(1)对现有频繁项集和频繁闭合项集挖掘算法进行深入剖析。从已有算法使用的策略和数据结构着手分析算法的优缺点,重点研究了基因表达数据频繁闭合项集挖掘算法。(2)采用行枚举空间搜索时,已有自底向上策略并未有效利用最小支持度阈值对搜索空间进行修剪,导致算法的时空性能较差。基于自顶向下策略的频繁闭合项集挖掘算法TP+close较好地解决了此问题。然而,TP+close算法在对项集进行闭合性检测时,要对已输出的频繁闭合项集进行扫描,影响了算法性能。通过对TP+close算法和数据结构TP+-tree深入分析,提出改进的数据结构TTP+tree和基于该结构的改进算法TTP+close。算法TTP+close引入了一种新的闭合性检测方法,即基于痕迹的闭合性检测方法,避免对已输出的频繁闭合项集扫描来判别将输出项集的闭合性。(3)已有大多数挖掘基因表达数据的频繁闭合项集需先设定最小支持度,但在实际应用中确定合适的最小支持度并不容易。本文提出在基因表达数据中挖掘top-k频繁闭合项集问题,并设计了挖掘算法TBtop。算法使用自顶向下宽度优先搜索策略挖掘项集长度不小于给定值min_l的top-k频繁闭合项集,并对搜索空间进行了有效修剪。
其他文献
二十世纪四十年代后期,Shannon提出了码的概念,从而导致了码论的产生。从形式语言的角度看,码是一类特殊的语言,它具有唯一分解的性质。什么样的语言是码和如何产生码是码论的两
知识库是近年来兴起的一种对互联网海量知识进行高效管理和存储的技术,可以辅助和改善很多上层应用的用户体验。知识库的体量和信息的丰富程度直接决定了它的竞争力,体量越大
近年来,多媒体技术尤其是流媒体技术的发展,引起了有关部门和机构的关注,为净化网络环境,流媒体发现技术应运而生。   本文首先介绍了流媒体的基本概念和原理,并回顾了流媒体的
学位
在Internet高速发展的今天,网上活动已经十分普及,越来越多的企业和组织依靠网络这个平台来开展它们的业务,信息安全问题也日益受到人们的重视。身份认证作为信息安全系统的第一
粗糙集理论是一种研究不完整、不确定知识处理的数学工具,近年来已经在许多领域得到了应用。粗糙集的特点就是可以在不需要任何先验信息的情况下,从大量的、模糊的、随机的实际
ASP是之前流行并已开发了大量网站的基于Windows的开发平台,而PHP是最近流行的可用于FreeBSD的开发平台。由于ASP的移植性(portability)差,而许多实际应用中迫切需要将已有的AS
随着社会对高等教育日益增加的需求和计算机网络技术、信息技术的迅猛发展,以网络化、信息化为特征的第三代远程开放教育蓬勃兴起。与此同时,数字图书馆建设就成为远程教育迫在
互联网高速发展的今天,新闻网站已成为我国新闻事业的中坚力量,作用举足轻重。但新闻网站普遍在前端开发、维护中,习惯用今天的预算解决昨天的问题,伴随着无线、手持平台或浏览器
学位
随着网络传输速度的提高和计算机性能的提升,广大师生对网络媒体多样性的需求日益增加。当前,中国地质大学(北京)校园网已经积累了丰富的视频资源,如视频新闻、视频课件、流
目前,随着网络规模的日益扩大,如果没有一套良好的网络管理系统和网络管理平台,要想使网络长期安全、高效地正常运行,是很难想象的。传统的网管系统HPopenview、Mocha BSM等虽然