大数据背景下关联规则挖掘算法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:wml889900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着计算机处理、分析数据的技术不断发展,各个行业都产生了革命性的变化,社会已经进入一个全新的数字化时代,“大数据”概念应运而生。在社会、经济、文化、科技等众多产业领域中,数字化信息被更多的记录用来进行分析获取价值,数据量呈现爆炸式的增长,而这种大数据时代下数据信息高速增长态势,其背后隐藏着巨大的科研、商业等价值,因此对于数据本身价值的获取显得更加的重要。数据挖掘的本质是从数据之间的相互关系中挖掘出有用的价值,通过不同的技术方法得到期望的结果。大数据时代下各行各业中产生的数据是不可计量的,同时价值也是无限的,这种现实的需求使我们更加需要对数据进行挖掘,从而在本质上获得利益。关联规则是数据挖掘中一个重要的技术手段,旨在挖掘事务中项集之间的关系,其已经被广泛应用于各个领域当中,特别在商业领域中能够给经营者满足顾客的消费需求,从而正确且有效的推销产品获得利润。所以本文以大数据为背景,针对目前数据本身的特点和存在的某些问题,从以下几个方面进行理论研究:(1)针对数据本身多样性的特点,由于在数据挖掘过程中采用单一最小支持度会造成挖掘效率不高、冗余规则的问题,本文提出一种基于多最小支持度的大数据关联规则算法:在挖掘频繁项集的过程中,通过给每一项目设置单独的支持度阈值,将最小频繁项目的支持度阈值作为筛选标准,进行冗余节点的删除;同时重新定义排序向下闭合属性,在挖掘频繁项集的过程中,利用该性质能够自动停止向下挖掘,并且删除冗余的候选项集,从而快速直接得到所有的频繁项集;由于整个挖掘过程中不需要频繁扫描数据库,能够大幅度减少挖掘时间;实验结果表明,通过给每一个项目设定单独的支持度阈值能够提高挖掘效率,节省计算时间。(2)针对数据的海量性的特点,本文提出了一种基于Spark的并行关联规则算法,主要提出三种改进策略进行关联规则的挖掘:首先,通过改进FP-tree,将单、双路径进行拆分,分布且同时进行挖掘,运用笛卡尔积操作得到频繁项集,以到达减少迭代次数的目的;然后,在分组过程中使用基于贪心策略的均衡分组思想,将频繁项目集合中的项目均衡的进行分组,有效的的解决了分组过程中出现负载不均衡的问题;最后,通过数据集并行挖掘的思想,将数据集进行水平切分,构建条件模式树进行频繁项集的挖掘。实验结果对比表明,本文所提改进算法具有较高的挖掘效率,并且表现出可扩展性较强的特点,适用于大数据背景下的数据挖掘与分析。(3)针对关联规则有效性的问题,同时为提高关联规则挖掘算法的效率和质量,本文提出一种基于社区结构的关联规则分析方法,该方法抛弃传统研究关联数据挖掘算法本身的思路,而是将关联规则与复杂网络相结合,通过关联规则之间的拓扑结构构建成类似复杂网络的形式,从而将关联规则的数据挖掘问题转换为复杂网络的社区发现问题;首先,该方法将关联规则结构转换到复杂网络中,构建一种新的关联网络;其次,针对关联网络中社区划分问题,将基于概率密度函数的Hausdorff距离引入到组合优化算法中提出一种改进的社区划分算法。最后通过实验分析,验证该算法的有效性。
其他文献
应用生物防制技术,在独行菜种子与库蚊幼虫数目的一定比例,但在不同pH值水体的条件下,观察该种子对库蚊幼虫黏粘的程度。实验结果表明,水体在不同pH值时对独行菜种子黏粘库蚊幼虫有不
目前,世界范围内能源短缺、环境污染已成为举世瞩目的突出问题,特别随着我国工业化发展进程和城镇化建设的进一步加快,能源短缺需求和保护环境要求矛盾越发突出,并成为制约社
在碳家族成员中,碳纳米管代表了典型的一维结构碳材料,具有明显的力学性能、较大的理论比表面积、良好的导电性和高的电化学稳定性,已成为近十年来材料科学的研究重点。本文
目的 应用重组的人乳头瘤病毒16型(HPV-16)基因组体外转化NIH/3T3细胞,以评价HPV-16的转化活性。方法 将HPV-16基因组正向插入pSV2/neo质粒,构建成pSV2-neo/HPV-16真核细胞表达质粒;用磷酸钙转染法,将其导入体外培养的NIH/3T3细胞;对经转化的
回顾过去,我们文献检索(以下简称文检)教学从形成阶段到初步发展阶段,发展到大发展阶段只经历了短短几十年的时间,而在短短几十年里,该学科得到前所未有的发展。这主要与当今社会的
2016年6月24日,英国脱欧公投结果显示脱欧派胜出,英国决定退出欧盟。中国民众对于英国脱欧这一历史性的事件反应热烈,在新浪微博上也引起网友热议,其中欧盟作为话题焦点被频频提起和讨论,笔者认为这是一个研究新浪微博中的欧盟形象这一话题的良好契机。本文首先在厘清并总结欧盟形象理论的基础上,回顾并分析了“英国脱欧”事件话题在新浪微博上的传播过程,随后使用python爬虫技术提取本研究所需的微博文本,对样
本文意在研究破产概率的精确计算.我们在一个基于复合泊松过程的一般风险模型基础上研究了更一般的风险模型.在(Li.,2009)的模型基础上加入了参数e(x), e(x)定义了盈余相关费
本刊讯 自6月30日以来,长江中下游沿江地区及江淮、西南东部等地出现入汛以来最强降雨过程。截至7月3日,全国已有26省(区、市)1192县遭受洪涝灾害,受灾人口3282万人,因灾死亡186人
1995年美国加利福尼亚的Patrick Bitter Sr博士提出其强脉冲光(intense pulsed light)的Photoficial技术概念,其后经过几年的实验研究,于1998年首先报道了风靡世界的光子嫩肤