论文部分内容阅读
摘要:在网络信息时代,数据信息量越来越丰富,深入挖掘大数据内在价值,充分彰显数据优势有利于促进我国社会发展,同时,有利于提升科学技术水平。本文首先对大数据挖掘做了基本介绍,然后分析了云计算基础下的体系结构,最后探究了分布式文件系统的大数据挖掘平台的优劣势和解决方案,希望能够为相关用户提供指导。
关键词:云计算;大数据挖掘;体系架构
现如今,数据信息借助網络平台大量出现,并且增长速度明显提升,大数据发展过程中面临机遇与挑战并存的状态,要想提取迎合用户需要的价值信息,应首先了解大数据挖掘内涵,在分析问题、解决问题的基础上提高大数据应用价值。由此可见,本文针对这一内容展开分析,具有一定的现实意义。
1 大数据挖掘基本介绍
(1)背景介绍。
随着科学技术的不断发展,所产生的数据信息以及被用户需要的价值数据量均有所增加,数据挖掘受时代影响显著,传统挖掘存在方式单一、层次尚浅等不足,相对来说,大数据挖掘更应迎合时代发展需要,大数据挖掘在先进信息技术、互联网的影响下应运而生。现如今,大数据挖掘仍需借助先进技术、云计算持续发展。
(2)处理对象。
大数据挖掘处理对象不同于传统数据挖掘,其中,前者要管理多种信息系统的数据信息,后者仅需管理特定范围以及特定信息系统内的数据。前者具有信息丰富、数据来源广、信息类型多样等特点,但对数据准确度要求较低,后者不同于前者,即数据源少、采集方式较被动、采集范围较局限、数据准确度较高。
(3)挖掘程度。
大数据挖掘主要借助网络优势完成数据处理和分析,挖掘范围较广泛、分析较深入,相对来说,传统数据挖掘仅对限定范围内的数据信息予以分析,因此,数据类型较单一、数据范围较局限。此外,后者处理、分析数据信息的过程中易受功能限制。从中能够看出,大数据挖掘在云计算等先进信息技术的辅助下,更能明确分析目标,同时,还会优化数据分析效果。
2 体系结构分析
(1)云计算。
在云计算时代背景中,传统数据挖掘受系统结构、处理方式影响,存在数据分析长时、高成本以及复杂空间度等问题,此外,还存在系统拓展不足、挖掘效果低质、用户体验效果差等问题,这与当今用户要求的智能化、及时性、快捷性不符。大数据挖掘在这一时代背景中能够借助分布式文件系统优势实现数据的高效、简单和快捷化处理。部分企业以云计算为基础,制定了大数据挖掘有效处理方案,例如,雅虎在分布式文件系统基础上开发了Pig;微软整合分布式文件系统与Windows Azure,同时,优化集成商务软件BI,以此丰富服务种类,丰富挖掘功能;谷歌创造搜索引擎平台,以此实现大数据的有效性分析、妥善存储多数量小文件。虽然大数据挖掘处理问题差异性不是十分显著,但解决方案还需进一步深化,提高解决方案适用性[1]。
(2)大数据挖掘架构。
该架构主要组成部分为三层,第一层(内层)为支撑平台层,第二层(中间层)为功能层,第三层(最外层)为服务层。其中,内层主要为大数据挖掘提供有力支持,并且能够营造云环境、向外界供应丰富的数据资源、有效实施预处理。中间层即针对用户需求进行自动化分析,再次过程中,能够实现数据妥善存储。最外层能够向用户展示大数据挖掘结果,可视化特征显著。这三种架构模式互相影响,挖掘云即在三者共同作用下有效形成。
3 基于分布式文件系统的大数据挖掘平台
(1)数据预处理。
大数据挖掘模式在后,数据在前,并且确定性模型能够在数据影响下不断变化,其中,预处理主要以综合技术为基础,具体包括数据流处理技术、远程采集技术、传统预处理技术、多模态实体识别技术等,在综合技术作用下,预处理综合功能能够有效实现。数据预处理过程中存在轻因果关系、重数据现象,存在轻数据完整性,重实时性现象,这也是大数据挖掘结果失准的主要原因。
(2)数据存储。传统数据挖掘存储数据时,所涉及的系统主要有文件系统、数据仓库以及操作系统等,数据存储较被动,存储模式较单一。大数据挖掘存储在传统储存系统的基础上,增加了分布式存储功能,所存储的数据类型主要有三种,第一种即非结构数据,第二种为存储结构数据,第三种为半结构数据。存储方式主要有两种,第一种即混合存储,第二种为列存储。针对不确定数据有效存储时,能够充分发挥不确定数据管理技术、管理系统的作用,以此完成不确定数据存储活动。
(3)数据分析。传统数据挖掘仅在少维数据分析中具备处理灵活性和分析准确性,对于多维数据的分析仅停留在浅层面。大数据挖掘针对数据计算、分析时,主要借助融合计算模式对其进行处理,对于大量维度、动态数据信息分析时,大数据挖掘能够在融合传统数据挖掘不足的基础上,针对性提升原有分析能力,同时,将分布式文件系统与传统挖掘算法有效结合、有效改进,以此优化数据分析质量。此外,还可以应用交互式分析方式对其进行内容分析,并提高挖掘语言利用率,充分彰显拓展性[2]。
(4)数据显示。大数据挖掘在数据显示方面明显优越于传统数据挖掘,挖掘结果的呈现方式主要为图像式和动画式,用户观看的同时,还能对数据有效性分析。传统数据挖掘针对动态数据、多维数据显示时,可视化效果较差,并且因果关系不能直观呈现。因此,要想提升可视化分析效果,还应对交互挖掘、内存原位、系统可视化等技术深入研究,确保节点通信、可视化技术时效等问题被有效解决。
4 结论
综上所述,对比分析大数据挖掘和传统数据挖掘,后者在云计算时代中的应用率较低,并不能充分满足用户需要,反之,大数据挖掘能够有效弥补传统数据挖掘的不足,更能适应云计算时代需要,及时迎合用户及时、快捷、高效的信息需要。此外,本論文大数据挖掘还应进一步分析,制定合理的、高效的问题解决方案。
参考文献:
[1]王超鹏,梁正科,李强.基于云计算的分布式数据挖掘算法研究[J].硅谷,2012,04:104+92.
[2]杨斐,艾晓燕,张峰.大数据精准挖据处理架构及预测模型研究[J].电子设计工程,2016,12:2932.
作者简介:刘镇(1996),男,安徽淮南人,本科在读,研究方向:数据挖掘。
关键词:云计算;大数据挖掘;体系架构
现如今,数据信息借助網络平台大量出现,并且增长速度明显提升,大数据发展过程中面临机遇与挑战并存的状态,要想提取迎合用户需要的价值信息,应首先了解大数据挖掘内涵,在分析问题、解决问题的基础上提高大数据应用价值。由此可见,本文针对这一内容展开分析,具有一定的现实意义。
1 大数据挖掘基本介绍
(1)背景介绍。
随着科学技术的不断发展,所产生的数据信息以及被用户需要的价值数据量均有所增加,数据挖掘受时代影响显著,传统挖掘存在方式单一、层次尚浅等不足,相对来说,大数据挖掘更应迎合时代发展需要,大数据挖掘在先进信息技术、互联网的影响下应运而生。现如今,大数据挖掘仍需借助先进技术、云计算持续发展。
(2)处理对象。
大数据挖掘处理对象不同于传统数据挖掘,其中,前者要管理多种信息系统的数据信息,后者仅需管理特定范围以及特定信息系统内的数据。前者具有信息丰富、数据来源广、信息类型多样等特点,但对数据准确度要求较低,后者不同于前者,即数据源少、采集方式较被动、采集范围较局限、数据准确度较高。
(3)挖掘程度。
大数据挖掘主要借助网络优势完成数据处理和分析,挖掘范围较广泛、分析较深入,相对来说,传统数据挖掘仅对限定范围内的数据信息予以分析,因此,数据类型较单一、数据范围较局限。此外,后者处理、分析数据信息的过程中易受功能限制。从中能够看出,大数据挖掘在云计算等先进信息技术的辅助下,更能明确分析目标,同时,还会优化数据分析效果。
2 体系结构分析
(1)云计算。
在云计算时代背景中,传统数据挖掘受系统结构、处理方式影响,存在数据分析长时、高成本以及复杂空间度等问题,此外,还存在系统拓展不足、挖掘效果低质、用户体验效果差等问题,这与当今用户要求的智能化、及时性、快捷性不符。大数据挖掘在这一时代背景中能够借助分布式文件系统优势实现数据的高效、简单和快捷化处理。部分企业以云计算为基础,制定了大数据挖掘有效处理方案,例如,雅虎在分布式文件系统基础上开发了Pig;微软整合分布式文件系统与Windows Azure,同时,优化集成商务软件BI,以此丰富服务种类,丰富挖掘功能;谷歌创造搜索引擎平台,以此实现大数据的有效性分析、妥善存储多数量小文件。虽然大数据挖掘处理问题差异性不是十分显著,但解决方案还需进一步深化,提高解决方案适用性[1]。
(2)大数据挖掘架构。
该架构主要组成部分为三层,第一层(内层)为支撑平台层,第二层(中间层)为功能层,第三层(最外层)为服务层。其中,内层主要为大数据挖掘提供有力支持,并且能够营造云环境、向外界供应丰富的数据资源、有效实施预处理。中间层即针对用户需求进行自动化分析,再次过程中,能够实现数据妥善存储。最外层能够向用户展示大数据挖掘结果,可视化特征显著。这三种架构模式互相影响,挖掘云即在三者共同作用下有效形成。
3 基于分布式文件系统的大数据挖掘平台
(1)数据预处理。
大数据挖掘模式在后,数据在前,并且确定性模型能够在数据影响下不断变化,其中,预处理主要以综合技术为基础,具体包括数据流处理技术、远程采集技术、传统预处理技术、多模态实体识别技术等,在综合技术作用下,预处理综合功能能够有效实现。数据预处理过程中存在轻因果关系、重数据现象,存在轻数据完整性,重实时性现象,这也是大数据挖掘结果失准的主要原因。
(2)数据存储。传统数据挖掘存储数据时,所涉及的系统主要有文件系统、数据仓库以及操作系统等,数据存储较被动,存储模式较单一。大数据挖掘存储在传统储存系统的基础上,增加了分布式存储功能,所存储的数据类型主要有三种,第一种即非结构数据,第二种为存储结构数据,第三种为半结构数据。存储方式主要有两种,第一种即混合存储,第二种为列存储。针对不确定数据有效存储时,能够充分发挥不确定数据管理技术、管理系统的作用,以此完成不确定数据存储活动。
(3)数据分析。传统数据挖掘仅在少维数据分析中具备处理灵活性和分析准确性,对于多维数据的分析仅停留在浅层面。大数据挖掘针对数据计算、分析时,主要借助融合计算模式对其进行处理,对于大量维度、动态数据信息分析时,大数据挖掘能够在融合传统数据挖掘不足的基础上,针对性提升原有分析能力,同时,将分布式文件系统与传统挖掘算法有效结合、有效改进,以此优化数据分析质量。此外,还可以应用交互式分析方式对其进行内容分析,并提高挖掘语言利用率,充分彰显拓展性[2]。
(4)数据显示。大数据挖掘在数据显示方面明显优越于传统数据挖掘,挖掘结果的呈现方式主要为图像式和动画式,用户观看的同时,还能对数据有效性分析。传统数据挖掘针对动态数据、多维数据显示时,可视化效果较差,并且因果关系不能直观呈现。因此,要想提升可视化分析效果,还应对交互挖掘、内存原位、系统可视化等技术深入研究,确保节点通信、可视化技术时效等问题被有效解决。
4 结论
综上所述,对比分析大数据挖掘和传统数据挖掘,后者在云计算时代中的应用率较低,并不能充分满足用户需要,反之,大数据挖掘能够有效弥补传统数据挖掘的不足,更能适应云计算时代需要,及时迎合用户及时、快捷、高效的信息需要。此外,本論文大数据挖掘还应进一步分析,制定合理的、高效的问题解决方案。
参考文献:
[1]王超鹏,梁正科,李强.基于云计算的分布式数据挖掘算法研究[J].硅谷,2012,04:104+92.
[2]杨斐,艾晓燕,张峰.大数据精准挖据处理架构及预测模型研究[J].电子设计工程,2016,12:2932.
作者简介:刘镇(1996),男,安徽淮南人,本科在读,研究方向:数据挖掘。