大数据背景下关联规则挖掘算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户：wml889900

【摘要】

：

【作者】

：

梁杨

【出处】

：

兰州交通大学

【发表日期】

：

2018年01期

【关键词】

：

大数据多最小支持度并行算法关联网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年,随着计算机处理、分析数据的技术不断发展,各个行业都产生了革命性的变化,社会已经进入一个全新的数字化时代,“大数据”概念应运而生。在社会、经济、文化、科技等众多产业领域中,数字化信息被更多的记录用来进行分析获取价值,数据量呈现爆炸式的增长,而这种大数据时代下数据信息高速增长态势,其背后隐藏着巨大的科研、商业等价值,因此对于数据本身价值的获取显得更加的重要。数据挖掘的本质是从数据之间的相互关系中挖掘出有用的价值,通过不同的技术方法得到期望的结果。大数据时代下各行各业中产生的数据是不可计量的,同时价值也是无限的,这种现实的需求使我们更加需要对数据进行挖掘,从而在本质上获得利益。关联规则是数据挖掘中一个重要的技术手段,旨在挖掘事务中项集之间的关系,其已经被广泛应用于各个领域当中,特别在商业领域中能够给经营者满足顾客的消费需求,从而正确且有效的推销产品获得利润。所以本文以大数据为背景,针对目前数据本身的特点和存在的某些问题,从以下几个方面进行理论研究:(1)针对数据本身多样性的特点,由于在数据挖掘过程中采用单一最小支持度会造成挖掘效率不高、冗余规则的问题,本文提出一种基于多最小支持度的大数据关联规则算法:在挖掘频繁项集的过程中,通过给每一项目设置单独的支持度阈值,将最小频繁项目的支持度阈值作为筛选标准,进行冗余节点的删除;同时重新定义排序向下闭合属性,在挖掘频繁项集的过程中,利用该性质能够自动停止向下挖掘,并且删除冗余的候选项集,从而快速直接得到所有的频繁项集;由于整个挖掘过程中不需要频繁扫描数据库,能够大幅度减少挖掘时间;实验结果表明,通过给每一个项目设定单独的支持度阈值能够提高挖掘效率,节省计算时间。(2)针对数据的海量性的特点,本文提出了一种基于Spark的并行关联规则算法,主要提出三种改进策略进行关联规则的挖掘:首先,通过改进FP-tree,将单、双路径进行拆分,分布且同时进行挖掘,运用笛卡尔积操作得到频繁项集,以到达减少迭代次数的目的;然后,在分组过程中使用基于贪心策略的均衡分组思想,将频繁项目集合中的项目均衡的进行分组,有效的的解决了分组过程中出现负载不均衡的问题;最后,通过数据集并行挖掘的思想,将数据集进行水平切分,构建条件模式树进行频繁项集的挖掘。实验结果对比表明,本文所提改进算法具有较高的挖掘效率,并且表现出可扩展性较强的特点,适用于大数据背景下的数据挖掘与分析。(3)针对关联规则有效性的问题,同时为提高关联规则挖掘算法的效率和质量,本文提出一种基于社区结构的关联规则分析方法,该方法抛弃传统研究关联数据挖掘算法本身的思路,而是将关联规则与复杂网络相结合,通过关联规则之间的拓扑结构构建成类似复杂网络的形式,从而将关联规则的数据挖掘问题转换为复杂网络的社区发现问题;首先,该方法将关联规则结构转换到复杂网络中,构建一种新的关联网络;其次,针对关联网络中社区划分问题,将基于概率密度函数的Hausdorff距离引入到组合优化算法中提出一种改进的社区划分算法。最后通过实验分析,验证该算法的有效性。

其他文献

不同pH值水体对独行菜种子黏粘库蚊幼虫的影响

应用生物防制技术，在独行菜种子与库蚊幼虫数目的一定比例，但在不同ｐＨ值水体的条件下，观察该种子对库蚊幼虫黏粘的程度。实验结果表明，水体在不同ｐＨ值时对独行菜种子黏粘库蚊幼虫有不

期刊

十字花科密花独行菜植物种子库蚊幼虫水体pHFamily cruciferaeLepidium densiflorumMucilaginous seed

并网光伏发电项目技术经济性分析与综合利用研究

目前,世界范围内能源短缺、环境污染已成为举世瞩目的突出问题,特别随着我国工业化发展进程和城镇化建设的进一步加快,能源短缺需求和保护环境要求矛盾越发突出,并成为制约社

学位

光伏发电技术原理经济分析农光互补

生物质基碳纳米管复合功能材料的设计合成与表征

在碳家族成员中,碳纳米管代表了典型的一维结构碳材料,具有明显的力学性能、较大的理论比表面积、良好的导电性和高的电化学稳定性,已成为近十年来材料科学的研究重点。本文

学位

碳纳米管木质素模板法碳纳米管复合物

人乳头瘤病毒16型基因组体外转化活性的研究

目的应用重组的人乳头瘤病毒１６型（ＨＰＶ－１６）基因组体外转化ＮＩＨ／３Ｔ３细胞，以评价ＨＰＶ－１６的转化活性。方法将ＨＰＶ－１６基因组正向插入ｐＳＶ２／ｎｅｏ质粒，构建成ｐＳＶ２－ｎｅｏ／ＨＰＶ－１６真核细胞表达质粒；用磷酸钙转染法，将其导入体外培养的ＮＩＨ／３Ｔ３细胞；对经转化的

期刊

人乳头瘤病毒细胞转化基因组Human papillomavirus type 16 NIH/3T3 cells cell transformation

医学文献检索课程教改的探讨

回顾过去，我们文献检索（以下简称文检）教学从形成阶段到初步发展阶段，发展到大发展阶段只经历了短短几十年的时间，而在短短几十年里，该学科得到前所未有的发展。这主要与当今社会的

期刊

网络医学文献检索教学改革

新浪微博中的欧盟形象

2016年6月24日,英国脱欧公投结果显示脱欧派胜出,英国决定退出欧盟。中国民众对于英国脱欧这一历史性的事件反应热烈,在新浪微博上也引起网友热议,其中欧盟作为话题焦点被频频提起和讨论,笔者认为这是一个研究新浪微博中的欧盟形象这一话题的良好契机。本文首先在厘清并总结欧盟形象理论的基础上,回顾并分析了“英国脱欧”事件话题在新浪微博上的传播过程,随后使用python爬虫技术提取本研究所需的微博文本,对样

学位

英国脱欧欧盟形象新浪微博内容分析

用微分方程研究的破产概率

本文意在研究破产概率的精确计算.我们在一个基于复合泊松过程的一般风险模型基础上研究了更一般的风险模型.在(Li.,2009)的模型基础上加入了参数e(x), e(x)定义了盈余相关费

学位

微分方程费用率盈余相关破产概率混合指数索赔额

全国26省遭受洪涝灾害多个陶瓷产区受损严重

本刊讯自6月30日以来，长江中下游沿江地区及江淮、西南东部等地出现入汛以来最强降雨过程。截至7月3日，全国已有26省（区、市）1192县遭受洪涝灾害，受灾人口3282万人，因灾死亡186人

期刊

洪涝灾害产区陶瓷直接经济损失长江中下游沿江地区降雨过程受灾人口

纤维支气管镜检查597例肺癌临床分析

期刊