基于Hash表的关联分析算法的应用与优化

来源 :广州大学 | 被引量 : 1次 | 上传用户:kevingod1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分析是数据挖掘中一种实用的技术,能够挖掘项集之间中令人感兴趣的规律或联系.然而随着现代社会的高速发展,其积累的数据的数据量也是庞大的,因此除了需要对计算机等硬件有更高的要求之外,对应的算法也应该得到改进.经典的Apriori算法的缺点是候选项集以及规则的数量随着事务数量的增加和事务最大宽度的增加等因素以指数级别的方式增加,其计算复杂度和时间复杂度也是急剧增加.而每一次计算候选k-项集的支持度计数都要检索整个数据库的数据,因此其计算效率低下.基于Hash表的Apriori算法改进的地方在于首先检索两次整个数据库,第一次是建立事务的权值表减少事务数量,第二次是建立项集的Hash表,在这之后只要检索需要检索Hash表对应的位置结合事务的权值表就可以得到候选项集的支持度计数,缩小了检索范围.通过实验对比分析可知在支持度阈值较小的时候,基于Hash表的Apriori算法占据绝对优势,随着支持度阈值的增大,两者的运行时间不断降低并且趋近.
其他文献
绒毛膜癌(Choriocarcinoma,GC)简称绒癌,是一种继发于葡萄胎或非葡萄胎妊娠的恶性滋养细胞肿瘤(Gestational trophoblastic tumor,GTT),具有快速生长、高侵袭和高转移潜能的
鱼粉是我国养殖业不可或缺的蛋白质饲料,就目前我国应用最广泛和成熟的鱼粉生产技术而言,并不能够从生产工艺上来避免臭气的产生,若不对臭气进行处理,会对附近的居住人群及其生存环境造成危害。解决废气污染的方法有多种,光催化技术凭借其处理效率高、对降解反应条件要求低、催化材料原料充足、可以氧化多类污染物等优势,成为大家研究的热点。通过对浙江某设备制造有限公司调研,发现目前利用光催化技术降解鱼粉废气的装置存在
现场可编程门阵列(Field-Programmable Gate Array,FPGA)具有功耗低、并行性高和计算速度快的特点,新一代FPGA还具有动态可重构功能,进一步提升了器件灵活性和计算效率。FPGA
目的:对养血平肝汤治疗肝阳上亢型偏头痛的临床效果进行观察,以期能为肝阳上亢型偏头痛的临床应用提供资料和数据参考。材料与方法:将符合纳入标准的60例肝阳上亢型偏头痛患
本文主要内容有两部分构成.第一部分讨论了 Poisson代数的平凡扩张,给出了扩张代数是Poisson代数的条件;第二部分引入了 BiHom-Poisson代数与BiHom-Poisson模,并将Poisson代数的平凡扩张的相关结果扩广到BiHom-Poisson的情形.
非线性发展方程与天文学、生物学、医学、力学、物理学等学科中的非线性现象紧密相连.因此,研究非线性发展方程的精确解,在非线性科学发展的进程中有着举足轻重的意义.目前,虽然已有很多关于求解非线性发展方程精确解的可行方法,但由于其本身的复杂性和独特性,至今还没有一种方法是通用有效的.本文主要利用Hirota双线性方法、正定二次函数法以及KP约化方法,对(3+1)维广义BKP方程、(3+1)维Mimbo
[目的]恶性肿瘤是人类的第二大死亡原因,其中消化道肿瘤的发病率在各系统中排在首位,结直肠癌(Colorectal cancer,CRC)作为消化道最为常见的肿瘤之一,其发病率仍呈增长趋势。
增强现实作为计算机图形学中的热门研究领域,经过长期的研究与发展,已经形成了一套比较完备的理论体系。随着近些年摄像头、屏幕技术的发展以及硬件计算能力的突飞猛进,增强
背景:妊娠期糖尿病(gestational diabetes mellitus,GDM)是以胰岛β-细胞功能受损和胰岛素抵抗为特征的糖耐量异常状态,是妊娠期最为常见的代谢类疾病。近年来,GDM的发病率呈
图G的点荫度va(G)是指G的顶点集V(G)的最小划分数,使得每一个划分集的点导出子图是一个森林.图G的k-森林染色指存在一个映射φ:V(G)→{1,2,…,k},使得任何一个点导出的子图G[Vi]是一个森林,其中Vi是指颜色为i的顶点所组成的集合.图G的点荫度亦指G有k;-森林染色的数fk的最小值.设L是V(G)的一个列表配置.若图G有一个森林染色φ,使得对每个顶点v都有φ(v)∈L(v),则称