一种基于Hadoop的关联规则挖掘算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:ykq1999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的并行关联规则算法对每一次迭代都定义一个MapReduce任务,以实现候选项集的生成和计数功能,但多次启动MapReduce任务会带来极大的性能开销。文中定义了一种并行关联规则挖掘算法PST-Apriori,该算法采取分治策略,在每个分布式计算节点定义一个前缀共享树,通过递归调用的方式将事务T生成的候选项集逐层压缩到前缀共享树(PST)中。然后广度遍历PST,逐层将每个节点对应的〈key,value〉作为map函数的输入,并由Map-Reduce框架自动按照key值进行聚集。最后调用reduce函数对
其他文献
近年来,研究界提出了多种管理新型存储级内存的内存文件系统,例如BPFS,PMFS和SIMFS。由于内存文件系统的设备访问方式和I/O路径不同于传统面向块设备的文件系统,适用于内存文
凌华科技推出一款ExpressCard到PCI的扩展系统ECS-8582—4S,通过最长达7米的电缆,可为具备Express-Card接口的计算机主机扩展最多达4个5V/3.3V PCI扩展槽。凌华科技ECS-8582—4S
现有Ad hoc网络中基于身份的认证和密钥协商方案是基于双线性对实现的,计算开销较大,并且存在密钥托管问题。针对该问题,提出了一种新的基于身份的认证和密钥协商方案。方案
为了解决宽带数据采集中由于传输线延时不一致造成的数据误采集的问题,首先从数据传输线电平转换机理人手分析了这一问题的原因所在,在此基础上,给出了估算采集对钟相位失真程度
分析了路径损耗因子对802.11无线局域网的干扰与载波监听性能的影响,揭示了增大路径损耗因子的优势。基于SNR阈值模型和固定的载波监听阈值,分析了802.11a/b/g/n的主要比特速
针对远程通信服务器需要并行处理多级别数据报文的特点,结合Java NIO、数据批处理、数据库连接池、锁机制等技术,提出一种高并发UDP通信服务器模型。详细设计了数据报接收、
社团结构是复杂网络的一项基本特性,对复杂网络中社团结构特别是重叠社团结构的检测,是复杂网络理论研究的一项重要且充满挑战的课题。对当前常用的重叠社团检测算法进行了分
通过一种新的可视化定义报表方法,用户可根据需要灵活定义报表样式,并利用XML实现动态创建数据表;在此基础上配置数据源及其字段与报表单元格间的关系,系统将据此自动拼装出
对丝网印刷电极及其应用于电化学发光检测的功能化及信号放大修饰进行综述,归纳了该检测体系在抗体、核酸、氧化酶底物、肿瘤细胞、病原菌、抗生素等物质检测中的应用,最后对