基于位组合的线性表频繁项集挖掘算法的研究与实现

来源 :黑龙江大学 | 被引量 : 1次 | 上传用户:lyyzk09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁项集挖掘是数据挖掘领域的一个基础性问题,相关算法需要在海量数据中寻找频繁出现项的组合,为关联规则挖掘提供前期的数据支持。在挖掘过程中,必须在保证准确率的情况下,尽可能快地在原始数据集中找到所有出现的频繁项组合。频繁项集挖掘领域主要有两类经典的挖掘算法:Apriori算法和FP-growth算法。Apriori算法每次计算支持度时需要对事务数据集进行扫描,导致时间开销非常大。而FP-growth算法特有的树结构不易被拆分,导致很难对数据进行批量处理,同时挖掘过程中存在递归操作,不利于算法并行化。本论文提出基于位组合的线性表频繁项集挖掘算法BCLT(Bit Combination Linear Table),该算法首先通过将原始数据集经过计数、排序、裁剪等一系列预操作处理,然后根据处理后的数据集构建线性表,最后根据这个线性表再进行频繁项集的挖掘。在挖掘过程中需要自底向上逐一进行元素比较,对于频率低的元素,共享度较低,导致算法在挖掘速度方面效果不是很好。针对BCLT算法的不足,本文又提出BCLT的优化算法BCLT-O(Optimization Algorithm for Bit Combination Linear Table),BCLT-O算法融合了两种频繁项集挖掘思想:基于位组合的按位与操作思想和基于位组合的线性表的挖掘思想。在BCLT-O算法中,原有的BCLT线性结构被融入二进制数据,并且将水平数据存储转换为垂直数据存储,改进了数据存储方式和数据结构,可以有效提高挖掘效率。在最终实验环节,BCLT-O算法在挖掘速度方面,相较之前未优化的算法和单纯基于位组合的按位与操作方法有了很大的提高。本论文最终将算法应用于大豆启动子数据频繁项集挖掘,研究目的在于将大豆基因的启动子数据中频繁出现的调控元件及其组合项筛选出来。算法在整个频繁项集挖掘过程中,还采用了频繁一项集的剔除、剪枝以及空间优化等操作,最终在时间和空间上较为高效地得出令人满意的结果。最终通过实验对比,BCLT-O算法相较于BCLT算法在挖掘速度上有了非常大的进步。同时,也大大超过了位组合及位组合优化算法。虽然BCLT-O算法在挖掘速度上相对FP-growth算法还是有一定的差距,但是BCLT-O算法有其特有的优势。首先,由于BCLT-O算法消除了递归操作,因此有利于算法的并行化。其次,BCLT-O算法中特有的线性表结构拆分自由度比较高,当原始数据集规模过大时,易于进行批量挖掘。
其他文献
随着商品经济的繁荣和市场竞争的激烈,品牌泛滥为消费大众提供了多样化的选择空间。品牌营销广告作为企业宣传的主流方式,在新兴媒介样态的弥补和支持下,越来越专注于受众主体性和体验情感化方向的发展。因此,品牌营销广告因体验缺失而造成功能失效的问题受到业界的重视。“游戏”发展所蕴含的内在属性和外在表现可以激励人的内外动机,影响人的行为操作,为品牌营销广告的体验升级创造机遇。本文依据唐纳德·诺曼的设计三层次理
本文以单环运动链为最小单元来构造一类集多运动模式与折叠缩放变形能力于一体的多模式移动机构,这类机构具有较强的变形能力和多样的运动模式,可以更好地适应复杂的路面环境,具有广泛的应用前景。现阶段多模式移动机构的研究主要集中于构型的创新设计,即提出新型的多模式移动机构,而较少研究多模式移动机构设计方法。对于构型各异的多模式移动机构,其构型之间是否存在一种通用的多模式移动机构型综合的方法,既可以构造出新型
遗传资源对于生物技术和人类社会的发展都起着至关重要的作用,“生物剽窃”现象促成了《生物多样性公约》(Convention on Biological Diversity,CBD)的落地,该公约确认了三项
强调教育改革与学校改进中的数据使用和证据驱动,关注校长数据领导方面的作为与能力,是国内外教育发展的一个重要趋势。既有研究在数据驱动决策、数据驱动领导、数据支持领导等主题下,从多个方面考察了校长数据领导的相关内容,但在校长数据领导概念框架的理解上仍存在说法不一、模糊不清的问题。本研究力图在综述西方过去20年文献的基础上,弥补这一欠缺。这对我国处于初步阶段的校长数据领导研究和实践而言,具有一定的价值。
西昌盆地大箐组作为重要储集层之一,具有一定的油气勘探前景。通过实测新基姑剖面、新建乡剖面,观察喜德1井、喜德3井、喜探1井岩心,采集喜德1井、喜德3井、普格1井岩屑,并结合镜下薄片鉴定、阴极发光、碳氧同位素、锶同位素、稀土元素等手段,明确西昌盆地中上奥陶统大箐组沉积特征、沉积相特征以及储层特征,探讨优质储层发育的主控因素,结果表明:西昌盆地大箐组与下伏巧家组整合接触,与上覆志留系龙马溪组或上三叠统
随着美国华裔文学的发展成熟,对优秀华裔作品的中文译介尤显其重要性。本篇翻译报告材料节选自美籍华裔作家任璧莲的长篇小说《世界与小镇》(World and Town)。小说讲述了美籍华人孔海蒂和其他两个移民家庭在河湖镇展开新生活的故事。译者希望通过翻译此作品能够帮助中文读者了解美籍华裔的生活,感受多族裔文化间的碰撞。本文运用翻译关联理论,对《世界与小镇》的第三章进行翻译和分析。关联翻译理论认为,翻译是
立宪政治是一种设立宪法、限制政府权力、保障人权的政治模式,实现立宪政治是近代日本历史发展和国家转型中的重要组成部分。对近代日本立宪政治源流的考察,有助于了解日本立宪政治从无到有的形成轨迹和内生的逻辑矛盾,拓展对日本近代发展历程的理解。近代日本立宪政治的实现并非自然生长的结果,而是人为构建的产物,其诞生深刻受到政治、社会、文化等诸方条件的支配。日本政府主导下的宪政调研和政权构建,塑造了其最终的形式和
自从照相机在1839年被发明以来,图像在人类生活的方方面面都扮演了极为重要的信息传递角色。而随着互联网和各种移动电子设备的大众化,图像的产生、传播和显示途径也变得越发多样化,这些过程中由于许多外部因素导致图像发生失真、降质等现象,影响人类主观感受甚至失去信息传递的作用。因此图像质量评价也受到越来越多的关注,图像质量评价通过建立理想的仿人类视觉系统(Human Visual System,HVS)模
桥梁作为交通生命线工程,是国家重点基础设施。大量震害资料表明,桥梁在地震作用下发生上部结构的震害、支座的震害、下部结构的震害等,造成人员伤亡和经济损失。如果在地震中桥梁发生落梁,会严重阻碍地震后的救援工作,进一步扩大地震造成的损失。因此,防止落梁震害研究受到了众多国内外学者的重视,本文在国内外研究成果基础上,提出了一种新型防落梁装置——钢圈防落梁装置。该装置由限位耗能钢圈、上导向钢轮和下导向钢轮三
随着我国对当前经济体制改革的不断深化,我国上市公司面临诸多机遇与挑战。投资活动是上市公司生存、成长、发展的主要手段,更是带动国民经济发展的重要动力之一,对于企业自身的发展、价值的提升、资本市场的资源配置效率以及国民经济都至关重要。但在现代企业制度中,所有权与经营权的分离,使得管理层的投资决策以个人利益为导向,因此造成企业非效率投资问题突出。面对逐渐增加的企业成本和日益减少的盈利空间,如何合理发挥企