基于元数据集成的分布式垂直频繁模式挖掘方法研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:zhoujiayan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 为了信息产业更好地融入人们的生活和工作,甚至是社会发展中,如何挖掘数据成为了热点问题。元数据是一种关于数据的数据,挖掘元数据有助于数据应用与存储,因此,找到一种高效、智能的数据挖掘方法十分重要。本文介绍了元数据及其集成技术,在此基础之上,引入分布式垂直频繁模式,并介绍了其在挖掘元数据过程中的使用方法,为从事相关行业的工作人员提供一个新的工作思路。
  关键词: 元数据;数据集成;布式垂直频繁模式;数据挖掘
  一、元数据及其集成技术
  元数据是关于数据的数据,元数据是对数据的各种描述,描述的内容主要包括数据出处、数据精度、数据质量、数据处理过程以及数据更新与信息维护等相关内容[1]。最初引入元数据的概念,一是为了更加高效、便捷的对数据库进行操作,提高数据库更新与维护的效率与成果优化;二是元数据的引入可以辅助计算机产业为其他产业提供专业技能,将计算机技术更好地融入其他产业。
  元数据应用非常广泛,各行各业都有关于元数据的相关研究,因此,元数据在不同行业具有一定的差异性,这也是元数据的根本特点之一。元数据的另外一个特点就是元数据本身必须要对数据负责,最大可能达到全方面地准确描述数据。目前,在信息产业和计算机技术中,利用元数据可以提高数据访问与检索效率,也可以实现数据的深度挖掘,对数据进行加工和处理[2]。
  目前,元数据的集成技术在数据挖掘领域和机器学习领域已经成为了一个研究亮点,在机器学习方面更是成为了四大重要研究方向之一,由此可见,元数据的集成技术具有重要意义。与元数据本身相比,元数据的集成可以进一步提高元数据的价值,然而,元数据的集成也会发生数据较大的问题,对存储数据的空间需求量加大,因此,找到将最佳组合的元数据进行集成的科学方法,在元数据研究领域具有重要意义。
  二、分布式垂直频繁模式
  当今社会信息技术高度发达,数据集成与挖掘为信息技术的发展提供了有力的数据支撑,是信息技术应用在各行各业的技术支持。元数据集成需要多种不同类型的数据相互作用,相辅相成,数据挖掘正是为数据集成提供基础数据的学科,分布式垂直频繁模式是数据挖掘中广泛使用的方法之一。
  分布式在元数据挖掘中的含义是将整体数据分成多个不同的独立的个体,分布式垂直频繁模式,就是在海量数据中,将数据依据不同分类形式分成若干个不同的个体或子集,然后将具有最大重要性的数据个体或子集挖掘出来,最终形成频繁项集输出[3]。
  频繁项集在数据库学科中的定义为,设Kn(n=1,2,……)为n个项,K={K1,K2,…,Kn}是项的集合,D为事务数据库。设有项集S在事物数据库中的支持数表示的是在事务数据库中包含项集S的事务项数目,记为Scount,S在事物数据库中的支持度是指S在事务数据库中出现频率,记为S.sup。假使S的支持度大于或等于给定的最小支持度阈值Minsup,则项集S为事务数据库中的频繁项集,在后续元数据集成的分布式垂直频繁模式挖掘中将被挖掘。。
  分布式垂直频繁模式挖掘的主要对象是频繁项集,分布式垂直频繁模式通过在海量数据中进行搜索,将其中一个数据挖掘出来后,一起将另外与之频繁出现的数据挖掘出来,最终合成频繁项集筛选出来作为结果进行分析,目前,分布式垂直频繁模式比较主流的算法主要有两种,分别是Apriori算法和FPGrowth[4]。
  Apriori算法是先在数据中构建数据候选集,在这些数据候选集中进行挖掘,这种算法需要将步骤重复进行多次,历遍全部数据,因此用时较长,当数据量较大时,Apriori算法效率较低,不适合使用。FPGrowth算法的第一步是构建FP-tree,然后使用递归算法对FP-tree中的数据进行挖掘,这个算法只有两个步骤,效率非常高,并且数据所需存储空间较少,应用广泛。
  分布式垂直频繁模式严禁将具有重要影响性的数据排除在频繁项集之外,同时要求在频繁项集中可以重建频繁项集,也应保证频繁项集间具有独立性与异同性。
  三、元数据集成的分布式垂直频繁模式挖掘方法
  在计算机领域,计算机设备和技术的发展速度可以用“摩尔定律”来表示,为了更好地实现良性发展,与计算机协同发展,元数据集成也正符合“摩尔定律”发展速度进行进步。
  在计算机行业中,大数据和云计算是两个新兴的产业和学科,具有广阔的发展前景,元数据是这两个学科的基础,随着信息化行业对于数据量的要求逐渐增长,传统的数据挖掘方法已经不能满足使用者对于元数据的要求,分布式垂直频繁模式挖掘方法可以满足现代数据挖掘工作的要求。数据挖掘是從海量的、较少完整性的、含有噪声的、较为模糊的、具有随机性的数据集里面找到高效的、具有实用性的、可以表示的数据信息,数据挖掘是一个交叉学科,挖掘技术包含多个学科的专业技能。分布式垂直频繁模式挖掘方法具有高可靠、可在线和弹性伸缩的特点,同时可以提供不同数据之间的内在关系和应用价值,能够为数据挖掘从业人员在决策时提供方便、快捷、迅速和高质量的数据[5]。
  对于数据来说,数据挖掘是具有严格工作流程的工作,主要包括数据清理、数据转换、数据挖掘开展、数据挖掘质量评估以及挖掘结果知识表示这八个主要的过程。基于分布式垂直频繁模式挖掘方法的元数据挖掘过程还需要收集数据信息,将不同类型、不同出处和不同特色的数据集中管理,通过制定规则,将数据集进行表示,清理无用或相关性较低的数据,将数据转换为所需格式或将数据格式进行统一,再根据数据中的信息采用分布式垂直频繁模式挖掘方法进行数据挖掘,根据要求对挖掘出的元数据进行质量评估,最后将元数据表示出来,应用到其他领域。
  以上是数据挖掘的基本过程,在元数据集成的分布式垂直频繁模式挖掘方法中还有很多研究人员不断提出新的挖掘算法。在Apriori算法的基础之上,采用归纳手段对数据进行扫描,这种方法通常只需要进行一次扫描,然就可以实现在海量数据中准确找到频繁项目,进而挑去出具有价值的数据进行分析形成元数据。也有基于FP-Tree算法进行改进的数据挖掘算法,通过不同时相的数据采集最终形成频繁项集。另一种算法是在参照FP-grow算法中将数据进行分段处理的思想,逐步挖掘数据中的频繁项集,这种算法可以让用户在线获取所需频繁项集,同时这种算法挖掘的频繁项集质量很高。
  由于我们身处环境的不同以及先天基因等多种因素,每个人具有不同的个性,因此对于需求而言具有个性化的特点。元数据集成的分布式垂直频繁模式挖掘方法,可以针对不同的个性进行数据挖掘,发挥数据长处,达到用户满意度。改革开放以来,人民生活条件得到了极大改善,对于生活质量的要求明显提高,私人订制行业受到越来越多人的喜爱,通过分布式垂直频繁模式挖掘方法,更新和维护客户的元数据,可以大大降低商家成本,同时更好地为客户服务。从事私人订制的工作人员会根据客户的要求或平时兴趣爱好,事先对客户需求进行预估,通过数据挖掘,有助于提高员工预测结果与客户需求的符合程度。
  四、总结
  随着生活质量的不断提高以及社会的不断发展,人类产生的数据量越来越大,数据的管理与应用具有很大商业价值和社会价值。在大数据时代下,元数据集成的分布式垂直频繁模式可以更好地适应大数据行业需求,提高元数据集成的有效性。
  参考文献
  [1]尹洁娜.基于元数据集成的分布式垂直频繁模式挖掘方法研究[D].辽宁大学,2014.
  [2]姜冰.基于MapReduce的分布式闭频繁模式发现方法研究[D].哈尔滨工业大学,2011.
  [3]张力飞,朱骁峰,何炎祥.利用网格服务的分布式频繁模式挖掘算法[J].计算机工程与应用,2004,40(7):179-181.
  [4]叶飞跃.基于自适应哈希链的分布式频繁模式挖掘算法[J].系统工程与电子技术,2005,27(3):560-564.
  [5]马可,李玲娟,孙杜靖.分布式并行化数据流频繁模式挖掘算法[J].计算机技术与发展,2016(7):75-79.
  作者简介:徐延强,男,兰州工业学院讲师,研究方向:数据存储与管理,元数据。
其他文献
近年来,随着钢结构产业的迅猛发展,与之相匹配的彩钢板工程也以它安装快捷、拆装方便、防水性强、保温效果佳等优点受到广大用户,特别是工矿企业的青睐.下面结合近几年的施工
摘 要: 随着我国社会不断进步,城市化进程快速发展下,越来越多的市政工程建设不断增加,人们日常生活生产中城市管网建设也更加紧密。作为城市地下水管、燃气管、电缆管线的施工中,这些地下管线的施工质量与城市能否正常运行有非常大的关系。因此,对于地下管线的科学合理布局,使我们提高城市效率与发展速度的关键。如果地下管线遭到严重的破坏,那么对人们日常生活会造成非常严重的影响,所以,地下管线施工质量决定着城市经
一、引言前面曾发表过两篇文章介绍纸浆浓度调节的参数整定和调节阀与管道的计算与选择问题,这些都是系统设计过程中十分重要的工作。但是仪表的安装与调整(尤其是测量仪表)
教育家冷冉在上个世纪80年代曾提出情知教学的主张,该主张是指把认知心理因素(感知、注意、记忆、思维和想象)和情性心理因素(动机、兴趣、情感、意志和性格)有意识统一起来
期刊
对影响混凝土桥梁耐久性的因素进行了分析,并在此基础上进一步提出了提高耐久性的新方法.
摘 要: 在公路工程施工中,软基是不可避免的一部分,对施工的正常进行产生了一定程度的影響。需要对软基的特点进行详细分析,结合施工现场的实际情况,采取具有针对性的方法,使施工质量得到最大程度的保障。本文对软土路基的特点、影响因素、施工技术等进行了详细分析,旨在延长公路的使用寿命,促进公路事业的健康稳定发展,实现理想的经济效益与社会效益。  关键词: 公路施工;软土路基;处理技术  随着经济社会快速发
摘 要: 随着经济全球化,政治多极化,加上世界经济低迷等不确定因素,将对建筑施工经营生产管理体系运行产生一定的影响,加上部分企业在经营生产管理中存两者分离、内耗或经营模式单一。本文试图从建筑施工企业面临前所未有的发展机遇、挑战及其对策;建筑施工企业经营与其生产管理职能分离,致使纵向产业链存在缺失;国家防控金融管理风险,制约了施工企业投资项目的发展等方面进行了分析,提出相应的改进措施。  关键词:
湖南省财政厅信托大厦、政务大楼工程为例,阐述了建筑设计要始终坚持“建筑、环境和人”三者相应依存和相互制约的关系使城市更完美、更有生气.
对应收帐款的具体表现及成因进行分析,提出具体的防范措施.
摘 要: 混凝土桥梁裂缝产生的原因,随着社会的发展,我国交通基础建设得到迅猛发展,各地兴建了大量的混凝土桥梁。混凝土早已经成为当今世界建筑结构中使用最广泛的建筑材料之一。它取材广泛、价格低廉、抗压强度高、可浇筑成各种形状,并且耐火性好、不易风化、养护费用低。其最主要的缺点是抗拉能力差,容易开裂。大量的工程实践和理论分析表明,几乎所有的混凝土构件均是带裂缝工作,甚至有些裂缝是肉眼看不见的(<0.05