基于Hadoop的关联规则挖掘算法研究及应用

来源 :哈尔滨理工大学 | 被引量 : 1次 | 上传用户:dzluzd2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的数据挖掘技术可以有效的从数据中挖掘对决策有益的信息。随着数据技术的发展,如何从大数据中进行数据挖掘是现在的一个热点研究方向。关联规则挖掘是数据挖掘中非常重要的分支,而传统的关联规则挖掘算法需要占用较大资源。本文基于当前的大数据技术,研究基于Hadoop框架下的关联规则挖掘算法。在使用Hadoop框架对关联规则挖掘算法进行重新设计,使得其在大数据环境下有更好的性能表现。本文使用垂直数据库表示事务数据库,将关联规则的挖掘方式转换成求项集之间的交集运算。然后通过扩展先验原则,使用前缀划分将数据分发到各个节点上。并使用位图来进行运算和存储,在计算长规则时通过缓存旧的候选集从而在挖掘新的关联规则时进行剪枝。从而降低计算时所需要的时间和存储代价。为了扩展关联规则的适用范围,本文引入了正负关联规则的概念。由于负关联规则的特殊性,往往会产生大量的无意义候选集,导致算法执行失败。本文在传统的支持度——执行度的模型上引入接受度作为关联规则的评判标准。同时为了加速正负关联规则的挖掘速度,在位图的基础上引入倒序索引作为数据结构。使其在挖掘正关联规则的同时可以计算负关联规则,减少需要执行的Map Reduce项目数量,提升挖掘速度。为了体现关联规则挖掘在现代数据系统中的重要性,本文设计学业预警系统作为应用案例。本应用案例有完整的界面系统和数据系统,集成了各个数据源之间的关系。在算法层面,使用了聚类算法对数据进行分层并使用关联规则对层间和层内进行关联分析。同时使用正负关联规则验证生成的关联规则,进而提升预测准确率。
其他文献
目的:1.探讨低分子肝素凝胶(LMWH gel)在皮瓣缺血/再灌注(Ischemia/Reperfusion,I/R)损伤过程中是否具有保护作用;2.探索微针和低分子肝素凝胶联合应用在防治皮瓣I/R损伤的新
现代生产过程中的机械设备不断地向大型化、复杂化、高速化、智能化发展。如果这些机械设备在出现故障初期不能进行及时有效的检测、诊断,将导致故障加剧,其后果可能造成停机
传统的图像风格迁移方法由于需要手动建模实现,而且常用的归一化方法是批量归一化,导致训练损失函数收敛速度较慢,同时图像纹理在迁移过程中表现不稳定,纹理形状发生改变。针
克罗恩病(Crohn’s disease,CD)是一种炎症性肠病,它可能影响胃肠道的任何部位。该疾病主要症状表现为腹痛、腹泻、体重减轻、疲劳和发烧等。在欧洲和北美,每300个成年人中大约就有一人遭受CD的影响,并且患病人数呈上升趋势。许多因素,如遗传、环境和免疫系统功能失常等会在该疾病的发展过程中起作用。但该疾病的发病机制仍然需要做进一步的研究。最近几年,神经影像学研究发现CD患者中大脑结构和功能
目的:本课题使用动物实验研究,通过大鼠行为学改变观察温阳补肾灸对血管性痴呆模型大鼠的疗效。通过分析其对NF-kB信号通路的的影响,探讨可能的作用机制。方法:1.78只SD大鼠
大型阵列天线和周期阵列结构在国防和民用中得到了广泛应用。针对天线和周期结构的数值方法也被各国学者研究。含周期结构复合型目标在天线领域有着非常重要的应用。当所要分
作为当代研究“普兰查斯与米利班德之争”的重要学者,巴罗的功绩之一在于他在结合多姆霍夫的阶级支配理论的基础上对包括米利班德在内的工具主义国家理论做出了细致的分析,并对这一理论的各种批判之辞进行了反批判。在他看来,包括普兰查斯在内的对工具主义国家理论的批判事实上都不成立。他们所批判的只是一种理论的“假象”,这种批判错误地将工具主义国家理论只还原为如下命题:“现代国家是资产阶级的统治工具”。因此,巴罗辩
固有免疫是机体对抗感染免疫应答中的第一道防线。当病原体入侵机体时,固有免疫细胞表面所表达的模式识别受体如TLRs,NLRs,RLRs,CLRs等,可识别不同的病原体表面病原相关模式
基于生物特征不易伪造,具有独一无二,终生不变等优点,生物特征识别技术对人的身份鉴别相对于传统鉴别方法有着天然的优势。其中,步态识别甚至可以在远距离、不接触个体、光线
负荷预测是配电网规划的基础工作,电力行业在规划电力项目时,利用负荷预测来保障电力规划的科学与合理,电压等级的选择、变电所的布点、网架结构等都要根据负荷预测结果来决