关联规则挖掘及其在基因表达数据中的应用

被引量 : 0次 | 上传用户:omlieo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联规则挖掘是数据挖掘领域中一个重要的研究问题,从1993年Agrawal等人提出至今,一直是学术界和产业界广泛关注的热点。随着生物数据的快速增长,生物信息学已成为关联规则挖掘最富有机遇与挑战性的应用领域之一。本文围绕关联规则挖掘问题,对关联规则挖掘算法及其并行化、以及关联规则挖掘在基因表达数据中的应用展开了较全面和深入的研究,其主要内容和贡献包括:(1)基于FP-tree的最大频繁模式挖掘算法研究由于最大频繁模式搜索空间是项目数的指数级,所以修剪策略在最大频繁模式挖掘算法中一直是一个非常重要的技术。本文在分析研究了前人提出的最大频繁模式挖掘算法FPmax*基础上,使用本文提出的完全子集修剪和起始项目集修剪策略,提出了进一步优化的改进算法FPmax**。实例分析表明,这两项修剪技术可进一步减少计算开销,提高原FPmax*算法的性能。(2)基于FP-tree的频繁闭合模式挖掘并行算法研究由于在频繁闭合模式挖掘过程中,除了判断模式的频繁性外,还必须判断模式的闭合性,所以,频繁闭合模式挖掘的并行化相比频繁模式挖掘的并行化难度更大。本文在研究了共享存储结构和分布式存储结构下的频繁模式挖掘与最大频繁模式挖掘并行算法的基础上,明确提出了共享存储结构下的频繁闭合模式挖掘并行算法SL-FP和SP-FP算法,以及分布式存储结构下的频繁闭合模式挖掘并行算法DL-FP和DP-FP算法。理论分析表明,SL-FP算法与DP-FP算法具有处理器之间同步较少,并行度更高,I/O与通信开销较小以及良好的负载平衡。(3)基于超链接结构的自底向上频繁闭合模式挖掘算法研究针对已有面向基因表达数据集的频繁闭合模式挖掘算法多次扫描数据集转置表带来巨大开销的缺陷,本文提出了基于超链接结构的频繁闭合模式挖掘算法HTclose。理论分析表明,该算法的时间和空间性能比反复扫描转置表的算法有较大的提高;在真实数据集上的实验结果表明,该算法普遍快于反复扫描转置表的算法,最高达1个数量级以上。(4)基于形式概念分析的自顶向下频繁闭合模式挖掘算法研究针对已有面向基因表达数据集的自底向上频繁闭合模式算法无法充分修剪空间可能遭遇计算开销过大的问题,本文提出了通过转换搜索空间自顶向下和直接自顶向下搜索频繁闭合模式两种策略,并设计了相应的TPclose和TP+close算法。理论上证明了这两个算法的正确性;在真实数据集上的实验结果表明,一般情况下,它们具有良好的性能和较好的可扩展性,比已有的自底向上频繁闭合模式挖掘算法最高快2个数量级以上。
其他文献
如果空袭目标距离被攻击目标比较近,飞行员为了完成作战任务和战术生存,通常采取一定的进攻战术。可对进攻战术意图进行推理,并对目标在射弹飞行时间内可能的机动模式进行估
基于麦克风阵列以及波束形成算法的声源定位技术通过麦克风阵列采集声音信号,经波束形成算法处理后完成对声源的方位估计。该定位技术广泛地应用于大型机械产品的噪声声源定
改革开放后,中小企业已构成我国国民经济的重要组成部分,在社会经济发展过程中有着许多大企业所不能替代的作用,在中小城镇建设等方面发挥了独特作用。同时中小企业还成为了
<正>已经过去的2014年,是公安教育训练工作不平凡的一年。经过一年的努力,各级公安机关的训练部门认真贯彻落实中央和公安部党委的部署要求,组织开展了一系列服务中心、贴近
<正>2014年12月16日到19日,公安部人事训练局在公安部警务实战训练海南基地,举办"贯彻"训练条例、服务四项建设专题研讨班,并召开全国公安民警训练工作座谈会,深入学习公安部
“奥斯曼主义”是奥斯曼帝国后期兴起的一种民族主义思潮。该思潮的理论源流为近代西方兴起的民族主义,所以“奥斯曼主义”构想的政治内容典型地体现出了要创建一个近代民族
中国的电视剧发展到新的世纪,不论就其作为一种艺术样式还是作为一种文化产业,都翻开了一个新的篇章。其中,电视剧编剧应该是被重视的、非常关键的一个问题。本文从两个方面切入
数字化、网络化、大数据、人工智能等当代信息科技的快速发展和广泛应用,孕育了“数字社会”这一特定的技术与社会建构及社会文化形态。数字技术进步和数字社会发展,成为当代人
报纸
从磷光OLED的工作原理可以看出,磷光OLED中主体材料对器件性能起着决定性作用。目前,红光和绿光磷光主体材料已经有了比较成熟的发展,相应的红光和绿光磷光OLED器件的效率和
随着知识经济时代的来临,人力资源已上升为社会发展和经济发展所需的第一资源。21世纪是知识经济时代,作为知识的必然掌握者和运用者,人成为知识经济中首要的动力源。作为拥有高