采用N-list结构的混合并行频繁项集挖掘算法

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:guyueer83
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对大数据环境下并行MRPrePost频繁项集挖掘算法中存在计算节点负载不均衡,N-list合并效率低以及冗余搜索等问题,提出了基于N-list结构的混合并行频繁项集挖掘算法HP-FIMBN.首先,设计负载量估计函数(LE)来计算出频繁1项集F-list中每一项的负载量,同时提出基于贪心策略的分组方法(GM-GS)将F-list中的每一项根据其负载量进行均匀分组,既解决了数据划分中计算节点负载不均衡的问题,又降低了集群中各节点上子PPC-Tree树的规模;其次,提出预先放弃策略(EAS),该策略不仅能有效避免合并过程中的无效计算,而且不需要遍历初始N-list结构就能得到最终的N-list,极大地提高了N-list结构的合并效率;最后,采用集合枚举树作为搜索空间,并提出超集等价剪枝策略(SES)来避免挖掘过程中的冗余搜索,生成最终的挖掘结果.实验结果表明,该算法在大数据环境下进行频繁项集挖掘具有较好的效果.
其他文献
蛋白质是生命活动的物质基础,直接参与、执行生命的活动过程.大多数蛋白质通过相互作用形成复合物来实现各种生物功能,因此预测蛋白质复合物有助于了解复合物的结构及其功能,也为细胞机制的研究奠定了重要基础.目前,随着高通量实验技术的不断发展,全基因组蛋白质相互作用(PPI)数据日益增多,领域内已经出现了很多基于计算的蛋白质复合物预测方法.虽然现有方法各具特色与优势,但也存在一些不足.首先,针对现有基于计算的蛋白质复合物预测方法进行了分类和比较全面、详细的分析评述;接着,介绍了复合物预测中常用的评价指标和主要数据集
针对室内轮椅定位与地图构建中传统ORB(oriented FAST and rotated BRIEF)受到特征点检测与选取策略的影响导致特征匹配正确率不理想,提出一种改进人工鱼群的ORB特征匹配算法.使用改进后的FAST检测特征点,利用改进后的人工鱼群在组合优化问题中具有收敛速度快且易获得最优解的特点,在图像中计算出不同特征区域,根据特征点所在区域位置赋予其相应的状态,对不同状态的特征点选择保留或去除,使用汉明距离的RANSAC算法在特征区域之间进行特征匹配.实验结果表明,改进后的FAST在图像边缘处提
学位
智能优化算法(IOA)指的是一类以自然界的生物生存进化过程或物理现象为算法原理,用于解决最优化问题的算法,较为知名的智能优化算法有遗传算法、粒子群算法、模拟退火算法等.智能优化算法属于启发式方法,广泛应用在解决最优化问题上,传统的群智能算法为解决一些实际问题提供了新思路.随着科学技术的进步和应用场景的改变,传统的智能优化算法在收敛速度、求解精度等方面已无法满足日益复杂的优化问题,因此不断有新的更高效的智能优化算法被提出.选取了近几年国内外提出的几种新型智能优化算法:蝴蝶优化算法(BOA)、飞蛾扑火算法(M
针对基本蚁群算法在机器人路径规划过程中路径转弯角度过大、易陷入局部极小值、收敛速度慢等问题,对其进行改进.在分析机器人路径规划环境建模方法基础上,将转角启发函数引入至节点选择概率公式,以增强路径选择指向性,提高算法搜索速度;通过引入当前节点与下一节点之间的距离和下一节点与目标节点距离之和的二次方对启发函数进行改进,使得算法搜索过程更有针对性,并降低陷入局部极小值概率;提出信息素挥发因子自适应更新策略,扩大算法搜索范围,提高收敛速度;利用遗传算法的交叉操作对移动路径进行二次优化,以增强算法的寻优能力,进而以
城市公交系统作为公交交通系统的主要组成成分,是城市居民使用最频繁的交通工具。随着智能公交系统的不断发展,公交系统中会记录下海量的乘客出行数据,这些数据是分析乘客出行行为提高公交车服务质量的关键。然而,目前很多城市的IC卡数据只记录乘客的上车信息,没有乘客的下车信息,根据乘客上车记录推断出乘客下车站点成为目前公交客流问题的研究热点。本文基于IC卡数据和公交GPS数据,从静态推断和动态推断两方面进行公
随着卫星技术在气象部门得到越来越广泛的应用,卫星云组织模式图像越来越多地应用于气象的分析与预测领域,有效地提高了气象预测的时效性和准确性。现阶段基于卫星云组织模式图像进行气象预测主要依靠专业气象人员研判云图资料来实现,如何实现卫星图像云组织模式的自动准确分割与识别成为气象以及人工智能领域的研究热点。本文重点研究基于深度学习的卫星图像云组织模式的分割与识别算法,探索有效的分割与识别策略。深度学习算法
图分析用于深入挖掘图数据的内在特征,然而图作为非欧几里德数据,传统的数据分析方法普遍存在较高的计算量和空间开销.图嵌入是一种解决图分析问题的有效方法,其将原始图数据转换到低维空间并保留关键信息,从而提升节点分类、链接预测、节点聚类等下游任务的性能.与以往的研究不同,同时对静态图和动态图嵌入文献进行全面回顾,提出一种静态图嵌入和动态图嵌入通用分类方法,即基于矩阵分解的图嵌入、基于随机游走的图嵌入、基于自编码器的图嵌入、基于图神经网络(GNN)的图嵌入和基于其他方法的图嵌入.其次,对静态图和动态图方法的理论相
多表连接运算是大数据处理中常见的运算.类似于数据库运算中常见的连接操作,多表连接运算的顺序会对计算资源和传输资源的消耗产生巨大影响.对多表连接顺序的优化是一个经典的优化问题,同时每次连接中表的投影结果大小也会影响节点间传输的数据体积,因此整体连接的顺序和每次连接的投影关系都会对连接效率产生显著的影响,而在传统的优化策略中,往往不会考虑到中间投影关系的取舍问题,以及基于中间投影关系而对最优连接策略产生的影响.针对这个问题,建立了一种连接关系索引,能够在构建优化连接策略中调整每次连接的投影关系,及时删除冗余列
现有的人员简历信息抽取方法无法针对金融公告中非结构化人员简历进行人员属性以及事件的抽取,无法发现金融公告中跨文档的人员之间关系.针对以上问题,将非结构化的人员简历抽取成结构化的人员信息模板,提出一种金融领域人物关系图谱构建方法.通过对B E RT预训练语言模型进行训练,抽取出非结构化人员简历文本中的人员属性实体,利用训练好的B E RT预训练模型获取事件实例向量,对事件实例向量进行准确的分类,填充层次化的人员信息模板,准确地关联人员属性.进一步地,通过填充好的人员信息模板,提取人员关系,构建人物关系图谱.