论文部分内容阅读
摘 要: 为了信息产业更好地融入人们的生活和工作,甚至是社会发展中,如何挖掘数据成为了热点问题。元数据是一种关于数据的数据,挖掘元数据有助于数据应用与存储,因此,找到一种高效、智能的数据挖掘方法十分重要。本文介绍了元数据及其集成技术,在此基础之上,引入分布式垂直频繁模式,并介绍了其在挖掘元数据过程中的使用方法,为从事相关行业的工作人员提供一个新的工作思路。
关键词: 元数据;数据集成;布式垂直频繁模式;数据挖掘
一、元数据及其集成技术
元数据是关于数据的数据,元数据是对数据的各种描述,描述的内容主要包括数据出处、数据精度、数据质量、数据处理过程以及数据更新与信息维护等相关内容[1]。最初引入元数据的概念,一是为了更加高效、便捷的对数据库进行操作,提高数据库更新与维护的效率与成果优化;二是元数据的引入可以辅助计算机产业为其他产业提供专业技能,将计算机技术更好地融入其他产业。
元数据应用非常广泛,各行各业都有关于元数据的相关研究,因此,元数据在不同行业具有一定的差异性,这也是元数据的根本特点之一。元数据的另外一个特点就是元数据本身必须要对数据负责,最大可能达到全方面地准确描述数据。目前,在信息产业和计算机技术中,利用元数据可以提高数据访问与检索效率,也可以实现数据的深度挖掘,对数据进行加工和处理[2]。
目前,元数据的集成技术在数据挖掘领域和机器学习领域已经成为了一个研究亮点,在机器学习方面更是成为了四大重要研究方向之一,由此可见,元数据的集成技术具有重要意义。与元数据本身相比,元数据的集成可以进一步提高元数据的价值,然而,元数据的集成也会发生数据较大的问题,对存储数据的空间需求量加大,因此,找到将最佳组合的元数据进行集成的科学方法,在元数据研究领域具有重要意义。
二、分布式垂直频繁模式
当今社会信息技术高度发达,数据集成与挖掘为信息技术的发展提供了有力的数据支撑,是信息技术应用在各行各业的技术支持。元数据集成需要多种不同类型的数据相互作用,相辅相成,数据挖掘正是为数据集成提供基础数据的学科,分布式垂直频繁模式是数据挖掘中广泛使用的方法之一。
分布式在元数据挖掘中的含义是将整体数据分成多个不同的独立的个体,分布式垂直频繁模式,就是在海量数据中,将数据依据不同分类形式分成若干个不同的个体或子集,然后将具有最大重要性的数据个体或子集挖掘出来,最终形成频繁项集输出[3]。
频繁项集在数据库学科中的定义为,设Kn(n=1,2,……)为n个项,K={K1,K2,…,Kn}是项的集合,D为事务数据库。设有项集S在事物数据库中的支持数表示的是在事务数据库中包含项集S的事务项数目,记为Scount,S在事物数据库中的支持度是指S在事务数据库中出现频率,记为S.sup。假使S的支持度大于或等于给定的最小支持度阈值Minsup,则项集S为事务数据库中的频繁项集,在后续元数据集成的分布式垂直频繁模式挖掘中将被挖掘。。
分布式垂直频繁模式挖掘的主要对象是频繁项集,分布式垂直频繁模式通过在海量数据中进行搜索,将其中一个数据挖掘出来后,一起将另外与之频繁出现的数据挖掘出来,最终合成频繁项集筛选出来作为结果进行分析,目前,分布式垂直频繁模式比较主流的算法主要有两种,分别是Apriori算法和FPGrowth[4]。
Apriori算法是先在数据中构建数据候选集,在这些数据候选集中进行挖掘,这种算法需要将步骤重复进行多次,历遍全部数据,因此用时较长,当数据量较大时,Apriori算法效率较低,不适合使用。FPGrowth算法的第一步是构建FP-tree,然后使用递归算法对FP-tree中的数据进行挖掘,这个算法只有两个步骤,效率非常高,并且数据所需存储空间较少,应用广泛。
分布式垂直频繁模式严禁将具有重要影响性的数据排除在频繁项集之外,同时要求在频繁项集中可以重建频繁项集,也应保证频繁项集间具有独立性与异同性。
三、元数据集成的分布式垂直频繁模式挖掘方法
在计算机领域,计算机设备和技术的发展速度可以用“摩尔定律”来表示,为了更好地实现良性发展,与计算机协同发展,元数据集成也正符合“摩尔定律”发展速度进行进步。
在计算机行业中,大数据和云计算是两个新兴的产业和学科,具有广阔的发展前景,元数据是这两个学科的基础,随着信息化行业对于数据量的要求逐渐增长,传统的数据挖掘方法已经不能满足使用者对于元数据的要求,分布式垂直频繁模式挖掘方法可以满足现代数据挖掘工作的要求。数据挖掘是從海量的、较少完整性的、含有噪声的、较为模糊的、具有随机性的数据集里面找到高效的、具有实用性的、可以表示的数据信息,数据挖掘是一个交叉学科,挖掘技术包含多个学科的专业技能。分布式垂直频繁模式挖掘方法具有高可靠、可在线和弹性伸缩的特点,同时可以提供不同数据之间的内在关系和应用价值,能够为数据挖掘从业人员在决策时提供方便、快捷、迅速和高质量的数据[5]。
对于数据来说,数据挖掘是具有严格工作流程的工作,主要包括数据清理、数据转换、数据挖掘开展、数据挖掘质量评估以及挖掘结果知识表示这八个主要的过程。基于分布式垂直频繁模式挖掘方法的元数据挖掘过程还需要收集数据信息,将不同类型、不同出处和不同特色的数据集中管理,通过制定规则,将数据集进行表示,清理无用或相关性较低的数据,将数据转换为所需格式或将数据格式进行统一,再根据数据中的信息采用分布式垂直频繁模式挖掘方法进行数据挖掘,根据要求对挖掘出的元数据进行质量评估,最后将元数据表示出来,应用到其他领域。
以上是数据挖掘的基本过程,在元数据集成的分布式垂直频繁模式挖掘方法中还有很多研究人员不断提出新的挖掘算法。在Apriori算法的基础之上,采用归纳手段对数据进行扫描,这种方法通常只需要进行一次扫描,然就可以实现在海量数据中准确找到频繁项目,进而挑去出具有价值的数据进行分析形成元数据。也有基于FP-Tree算法进行改进的数据挖掘算法,通过不同时相的数据采集最终形成频繁项集。另一种算法是在参照FP-grow算法中将数据进行分段处理的思想,逐步挖掘数据中的频繁项集,这种算法可以让用户在线获取所需频繁项集,同时这种算法挖掘的频繁项集质量很高。
由于我们身处环境的不同以及先天基因等多种因素,每个人具有不同的个性,因此对于需求而言具有个性化的特点。元数据集成的分布式垂直频繁模式挖掘方法,可以针对不同的个性进行数据挖掘,发挥数据长处,达到用户满意度。改革开放以来,人民生活条件得到了极大改善,对于生活质量的要求明显提高,私人订制行业受到越来越多人的喜爱,通过分布式垂直频繁模式挖掘方法,更新和维护客户的元数据,可以大大降低商家成本,同时更好地为客户服务。从事私人订制的工作人员会根据客户的要求或平时兴趣爱好,事先对客户需求进行预估,通过数据挖掘,有助于提高员工预测结果与客户需求的符合程度。
四、总结
随着生活质量的不断提高以及社会的不断发展,人类产生的数据量越来越大,数据的管理与应用具有很大商业价值和社会价值。在大数据时代下,元数据集成的分布式垂直频繁模式可以更好地适应大数据行业需求,提高元数据集成的有效性。
参考文献
[1]尹洁娜.基于元数据集成的分布式垂直频繁模式挖掘方法研究[D].辽宁大学,2014.
[2]姜冰.基于MapReduce的分布式闭频繁模式发现方法研究[D].哈尔滨工业大学,2011.
[3]张力飞,朱骁峰,何炎祥.利用网格服务的分布式频繁模式挖掘算法[J].计算机工程与应用,2004,40(7):179-181.
[4]叶飞跃.基于自适应哈希链的分布式频繁模式挖掘算法[J].系统工程与电子技术,2005,27(3):560-564.
[5]马可,李玲娟,孙杜靖.分布式并行化数据流频繁模式挖掘算法[J].计算机技术与发展,2016(7):75-79.
作者简介:徐延强,男,兰州工业学院讲师,研究方向:数据存储与管理,元数据。
关键词: 元数据;数据集成;布式垂直频繁模式;数据挖掘
一、元数据及其集成技术
元数据是关于数据的数据,元数据是对数据的各种描述,描述的内容主要包括数据出处、数据精度、数据质量、数据处理过程以及数据更新与信息维护等相关内容[1]。最初引入元数据的概念,一是为了更加高效、便捷的对数据库进行操作,提高数据库更新与维护的效率与成果优化;二是元数据的引入可以辅助计算机产业为其他产业提供专业技能,将计算机技术更好地融入其他产业。
元数据应用非常广泛,各行各业都有关于元数据的相关研究,因此,元数据在不同行业具有一定的差异性,这也是元数据的根本特点之一。元数据的另外一个特点就是元数据本身必须要对数据负责,最大可能达到全方面地准确描述数据。目前,在信息产业和计算机技术中,利用元数据可以提高数据访问与检索效率,也可以实现数据的深度挖掘,对数据进行加工和处理[2]。
目前,元数据的集成技术在数据挖掘领域和机器学习领域已经成为了一个研究亮点,在机器学习方面更是成为了四大重要研究方向之一,由此可见,元数据的集成技术具有重要意义。与元数据本身相比,元数据的集成可以进一步提高元数据的价值,然而,元数据的集成也会发生数据较大的问题,对存储数据的空间需求量加大,因此,找到将最佳组合的元数据进行集成的科学方法,在元数据研究领域具有重要意义。
二、分布式垂直频繁模式
当今社会信息技术高度发达,数据集成与挖掘为信息技术的发展提供了有力的数据支撑,是信息技术应用在各行各业的技术支持。元数据集成需要多种不同类型的数据相互作用,相辅相成,数据挖掘正是为数据集成提供基础数据的学科,分布式垂直频繁模式是数据挖掘中广泛使用的方法之一。
分布式在元数据挖掘中的含义是将整体数据分成多个不同的独立的个体,分布式垂直频繁模式,就是在海量数据中,将数据依据不同分类形式分成若干个不同的个体或子集,然后将具有最大重要性的数据个体或子集挖掘出来,最终形成频繁项集输出[3]。
频繁项集在数据库学科中的定义为,设Kn(n=1,2,……)为n个项,K={K1,K2,…,Kn}是项的集合,D为事务数据库。设有项集S在事物数据库中的支持数表示的是在事务数据库中包含项集S的事务项数目,记为Scount,S在事物数据库中的支持度是指S在事务数据库中出现频率,记为S.sup。假使S的支持度大于或等于给定的最小支持度阈值Minsup,则项集S为事务数据库中的频繁项集,在后续元数据集成的分布式垂直频繁模式挖掘中将被挖掘。。
分布式垂直频繁模式挖掘的主要对象是频繁项集,分布式垂直频繁模式通过在海量数据中进行搜索,将其中一个数据挖掘出来后,一起将另外与之频繁出现的数据挖掘出来,最终合成频繁项集筛选出来作为结果进行分析,目前,分布式垂直频繁模式比较主流的算法主要有两种,分别是Apriori算法和FPGrowth[4]。
Apriori算法是先在数据中构建数据候选集,在这些数据候选集中进行挖掘,这种算法需要将步骤重复进行多次,历遍全部数据,因此用时较长,当数据量较大时,Apriori算法效率较低,不适合使用。FPGrowth算法的第一步是构建FP-tree,然后使用递归算法对FP-tree中的数据进行挖掘,这个算法只有两个步骤,效率非常高,并且数据所需存储空间较少,应用广泛。
分布式垂直频繁模式严禁将具有重要影响性的数据排除在频繁项集之外,同时要求在频繁项集中可以重建频繁项集,也应保证频繁项集间具有独立性与异同性。
三、元数据集成的分布式垂直频繁模式挖掘方法
在计算机领域,计算机设备和技术的发展速度可以用“摩尔定律”来表示,为了更好地实现良性发展,与计算机协同发展,元数据集成也正符合“摩尔定律”发展速度进行进步。
在计算机行业中,大数据和云计算是两个新兴的产业和学科,具有广阔的发展前景,元数据是这两个学科的基础,随着信息化行业对于数据量的要求逐渐增长,传统的数据挖掘方法已经不能满足使用者对于元数据的要求,分布式垂直频繁模式挖掘方法可以满足现代数据挖掘工作的要求。数据挖掘是從海量的、较少完整性的、含有噪声的、较为模糊的、具有随机性的数据集里面找到高效的、具有实用性的、可以表示的数据信息,数据挖掘是一个交叉学科,挖掘技术包含多个学科的专业技能。分布式垂直频繁模式挖掘方法具有高可靠、可在线和弹性伸缩的特点,同时可以提供不同数据之间的内在关系和应用价值,能够为数据挖掘从业人员在决策时提供方便、快捷、迅速和高质量的数据[5]。
对于数据来说,数据挖掘是具有严格工作流程的工作,主要包括数据清理、数据转换、数据挖掘开展、数据挖掘质量评估以及挖掘结果知识表示这八个主要的过程。基于分布式垂直频繁模式挖掘方法的元数据挖掘过程还需要收集数据信息,将不同类型、不同出处和不同特色的数据集中管理,通过制定规则,将数据集进行表示,清理无用或相关性较低的数据,将数据转换为所需格式或将数据格式进行统一,再根据数据中的信息采用分布式垂直频繁模式挖掘方法进行数据挖掘,根据要求对挖掘出的元数据进行质量评估,最后将元数据表示出来,应用到其他领域。
以上是数据挖掘的基本过程,在元数据集成的分布式垂直频繁模式挖掘方法中还有很多研究人员不断提出新的挖掘算法。在Apriori算法的基础之上,采用归纳手段对数据进行扫描,这种方法通常只需要进行一次扫描,然就可以实现在海量数据中准确找到频繁项目,进而挑去出具有价值的数据进行分析形成元数据。也有基于FP-Tree算法进行改进的数据挖掘算法,通过不同时相的数据采集最终形成频繁项集。另一种算法是在参照FP-grow算法中将数据进行分段处理的思想,逐步挖掘数据中的频繁项集,这种算法可以让用户在线获取所需频繁项集,同时这种算法挖掘的频繁项集质量很高。
由于我们身处环境的不同以及先天基因等多种因素,每个人具有不同的个性,因此对于需求而言具有个性化的特点。元数据集成的分布式垂直频繁模式挖掘方法,可以针对不同的个性进行数据挖掘,发挥数据长处,达到用户满意度。改革开放以来,人民生活条件得到了极大改善,对于生活质量的要求明显提高,私人订制行业受到越来越多人的喜爱,通过分布式垂直频繁模式挖掘方法,更新和维护客户的元数据,可以大大降低商家成本,同时更好地为客户服务。从事私人订制的工作人员会根据客户的要求或平时兴趣爱好,事先对客户需求进行预估,通过数据挖掘,有助于提高员工预测结果与客户需求的符合程度。
四、总结
随着生活质量的不断提高以及社会的不断发展,人类产生的数据量越来越大,数据的管理与应用具有很大商业价值和社会价值。在大数据时代下,元数据集成的分布式垂直频繁模式可以更好地适应大数据行业需求,提高元数据集成的有效性。
参考文献
[1]尹洁娜.基于元数据集成的分布式垂直频繁模式挖掘方法研究[D].辽宁大学,2014.
[2]姜冰.基于MapReduce的分布式闭频繁模式发现方法研究[D].哈尔滨工业大学,2011.
[3]张力飞,朱骁峰,何炎祥.利用网格服务的分布式频繁模式挖掘算法[J].计算机工程与应用,2004,40(7):179-181.
[4]叶飞跃.基于自适应哈希链的分布式频繁模式挖掘算法[J].系统工程与电子技术,2005,27(3):560-564.
[5]马可,李玲娟,孙杜靖.分布式并行化数据流频繁模式挖掘算法[J].计算机技术与发展,2016(7):75-79.
作者简介:徐延强,男,兰州工业学院讲师,研究方向:数据存储与管理,元数据。