基于Map Reduce的序列模式挖掘算法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:hlp2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。
其他文献
为查明农用车电机化键轴断裂原因,采用断口宏观分析、硬度检测分析、艟微组织分析、化学分析等方法,对其进行检验和分析,结果表明:花键轴受扭转交变载荷的作用,在应力集中的沟槽R
政府是控制性详细规划制定和修编的主体,其在控规的整个生命周期内发挥着重要作用。既要保障社会公众的整体利益、合理分配土地收益、确保进行土地二次开发的合理利润,还承担
截至2月7日,全国铁路公安机关共抓获倒票人员5418名,打掉团伙123个,端掉倒票窝点970个,缴获假火车票2065张、各类假证件和假发票41894本、假印章43287枚。今年春运,票贩子又
在无线传感器网络中,节点失效和环境影响等因素会降低数据传输的可靠性。为此,提出一种基于前向纠错的自适应多径路由协议。根据当前的网络状况,利用RS纠删码自适应调整编码冗余,在选出的可用多路径上根据每条路径的剩余能量权重分配流量,Sink节点根据收到的数据片段进行数据包重构。仿真结果表明,该协议能达到较好的负载均衡,具有较高的成功传输率和吞吐率。
文章通过《绿野仙踪》中的副词与宋元明时期的副词对比发现,其中大多数副词都是从宋元明时期继承来的,而且意义和用法没有发生太大的改变;同时一些差异开始出现,如双音节大量
针对无线传感器网络的能量损耗问题,提出一种基于自组织神经网络的分簇成链路由协议RBCSC。该协议借鉴经典低功耗自适应集簇分层型(LEACH)协议的算法,采用自组织神经网络进行分簇
针对现有聚类算法在计算网格密度时未考虑周围空间的影响因素而导致聚类边界不平滑的现象,提出一种基于扩展网格和密度的数据流聚类算法。通过动态确定网格扩展区域,将网格密度
随着网络尤其是互联网的急速增长,可用的IP地址空间面临着被分配殆尽的形势。1994年以后尤为严重,因此IETF很快研究出了无类域编址(无类域问路由选择CIDR)方法解决这一问题,即文章
在阐述了反激式电源基本原理的基础上,设计了一种基于LD7575芯片的具有低压大电流输出的充电电源。该单端反激式充电电源具有恒压、恒流2种工作模式,适用于单体大容量锂电池充
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议