浅谈大数据

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:alexzc1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。大数据正以难以想象的发展速度带来新一轮信息化革命,它给我们带来新的思维变革、商业变革和管理变革,身处其中的我们必将面临其带来的机遇与挑战。本文在简要阐明大数据时代的相关概念和特点后,浅析了大数据时代的数据处理与挖掘的方法,给读者提供了一个全面的概述。
  [关键词]大数据;大数据处理方法;数据挖掘;大数据思维
  中图分类号:TP311.13;G250.76 文献标识码:A 文章编号:1009-914X(2015)05-0130-01
  大数据(Ⅸg Data)是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。它对于我们来说,是一个既具体又抽象的存在。如,海量的表达、数据分析、纸牌屋的产生、国家战略等等。现有大数据发展可分为两种类型,第一种类型大数据,是指企业自身的产品和服务产生了大量的密集型“超大规模”或“海量数据”,通过对这些数据进行深入的挖掘分析,改进自身业务,改进后的业务吸引更多用户或客户,产生更大量的数据,形成正向的循环。第二种类型大数据,是网络大数据,通常是指在互联网上发生的、蕴含有丰富的、可被发掘的具有社会价值、商业价值或科研价值的大数据。
  要认识大数据必须要考虑四个维度,这四个维度分别是数据量、多样性、速度和精确性。数据量(Volmne):数量也许是与大数据最相关的特征,指企业为改进企业决策而试图利用的大量数据。数据量正持续以前所未有的速度增加。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。多样性(Vanety):不同类型的数据和数据源。多样性是指管理多种数据类型的复杂性,包括结构化、半结构化和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括文本、网络日志、音频、视频、图片、地理位置信息、传感器数据等等,这些多类型的数据对数据的处理能力提出了更高要求。企业需要整合并分析来自复杂的传统和非传统信息源的数据,包括企业内部和外部的数据。速度(Velociy):数据在运动中。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。数据创建、处理和分析的速度在持续加快。加速的原因是数据创建的实时性天性,以及需要将数据结合到业务流程和决策过程中的要求。速度影响数据时延
  从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程,如实时欺诈监测或多渠道“即时”营销,某些类型的数据必须实时地分析,以对业务产生价值。精确性(Value):与某些数据类型相关的可靠性。价值密度的高低与数据总量的大小成反比。追求高数据质量是一项重要的大数据要求和挑战,如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
  传统的数据分析多是提出假设然后获得数据再通过数据分析去验证假设。在小数据时代,追求精确度是合理的。收集的数据少,所以需要越精确越好。但是,当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误,不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可能会错过事情的全貌。大数定理告诉我们,“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。随着计算机的处理能力的日益强大,能获得的数据量越大,能挖掘到的价值就越多。与传统方式不同,大数据的处理方法是直接分析。大数据本质是在相关关系分析法基础上的预测,而不是传统的数据统计带来的简单的因果关系。人的思维就是一个大数据处理体系,如果有的人擅长去寻找不同事件之间发生的因果关系,采用自己主观判断来归因,那么这个叫做因果错觉,但事实上,事情之间的相关关系才是真正的关系。人的思维体系中,相关关系更加重要,相关关系代表调取大脑中的既往相关经验,来处理眼前的事情,更加客观。大数据像是一种思维方式,是一种从数据出发,寻找内部的相关关系,去发现一些直观观察并不容易发现的结论的思路。这种思维方式并不是现在才有的,但是在过去因为硬件、计算能力等限制并不能充分发挥作用。当代的电子商务、移动互联网等每天都会产生大量数据,数据本身不产生价值,如何分析和利用数据最终对业务产生帮助才是关键,而计算机性能的提高以及云计算的出现价值实现成为可能。如今,大数据已经从战略高度对国家安全、政府决策和競争模式产生了决定性影响。从聚焦结构化数据的存储到对于移动化数据的分析,从由串行方式获取信息源到直接获取数据源,从数据应用到情景分析再到通过连续数据发掘未知信息,从查看预定义的报告和仪表盘到敏捷且可视化的自助数据,从分析数据与应用到数据应用平台:大数据技术为数据的角色定位和获取、应用方式带来了巨大变化,并为数据不断发掘新价值。通过在移动数据中将电子邮件、图像、不同来源的内部数据和外部数据相结合,大数据将数据从应用中释放,选取符合成本效益原则的数据用于分析,将不同的数据结合成上下文内容,结合内部数据获得独特价值,最终通过大数据实现创新。
  大数据的价值实现离不开数据挖掘。我们处理许多问题的核心思想在于样本选取和结果选取,就是是从海量的数据中发现隐含的知识和规律。大数据首先要把些可以获得的数据收集上来,包括未来可能被利用的信息,包括正确的和不正确的数据都要采用。大数据不关心为什么,只关心是什么:有了海量的数据的依托,通过大数据统计出的结果具有相当程度的普适性。在大数据思维模式中,数据为我们提供最多的可能和最大的价值。数据挖掘是在我们掌握的数据多了以后,把数据交给计算机分析的方法的集合。而大数据则是跳出我们的传统数据分析和处理方法框架的一种新思维,这种思维的实际应用以数据挖掘技术为基础,并可以促进我们开发出更多的数据挖掘技术。一种思维和一类技术比起来,确实是要虚很多,而且思维要付诸实现,必然是要以技术为基础的。大数据收集除了利用现有的数据渠道之外,首先改造了一些产品形态使得数据更好地被量化和可被学习,然后是通过云计算来做数据相关性的分析,最后是用直观和简单的方式反馈给终端预测结果。
  麦肯锡曾经说过:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”我们理清了使用大数据的思维,我们就抓住了这个时代的核心。最终,我们都将在大数据时代获益。
其他文献
[摘要]我国的可开发风能资源位居世界第一,截止到2014年底我国的并网风力发电装机容量已达到9000万千瓦,相当于五个三峡水电站的装机容量,也是目前世界上开发风能资源最多的国家。随着风力发电比例的不断提升,为改善我国能源结构提供了很大的帮组,但大规模风力发电机组的并网发电,对电网也产生了前所未有的挑战,电网稳定性、大规模脱网事故、甚至有可能发生局部电力系统瓦解。因此风力发电机组大规模并网产生的问题
期刊
[摘要]负载均衡技术是建立在现有的网络结构之上,提供一种有效的方法扩展服务器带宽和增加吞吐量,加强网络数据处理能力,提高网络的灵活性和可用性。为用户提供更好的访问质量,提高服务器响应速度,避免网络关键部位出现单点失效。  [关键词]负载均衡;吞吐量;网络数据  中图分类号:D631 文献标识码:A 文章编号:1009-914X(2015)05-0124-01  一、负载均衡的工作模式  假设在同一
期刊
[摘要]目前,全世界的军事、经济、社会、文化各个方面都越来越依赖于计算机网络,人类社会对计算机的依赖程度达到了空前的记录。由于计算机网络的脆弱性,这种高度的依赖性使国家的经济和国防安全变得十分脆弱,一旦计算机网络受到攻击而不能正常工作,整个社会就会陷入危机。故此,网络的安全措施应是能全方位地针对各种不同的威胁和脆弱性,这样才能确保网络信息的保密性、完整性和可用性。  [关键词]网络安全;数据加密;
期刊
[摘要]介绍了R语言在数据可视化方面的应用,并结合R语言自带的几个数据集,通过R语言的ggplot绘图函数,实现了通过R语言绘制散点图、线图、直方图、箱线图以及条形图的实例。  [关键词]R语言;数据可视化;gg3310t;统计分析  中图分类号:TP391.41 文献标识码:A 文章编号:1009-914X(2015)05-0127-01  1引言  近年来,随着社会的不断进步以及信息技术的不断
期刊
[摘要]电力行业,不仅与人们的日常生活密切相关,还与各行各业有着特殊的联系。可见,它是一种特殊的行业,在经济的飞速发展中也起着不可替代的作用。在智能变电站继电保护配置中,智能变电站已经成为一种新的发展趋势,而传统的变电站终将被取代。本文作者从机电保护的特点出发,来分析智能变电站继电保护装置的情况,从而对它的展望进行探讨,让广大读者更好地去了解这种新设备的诞生。  [关键词]探讨智能变电站继电保护配
期刊
[摘要]地震沉积学是一门主要运用地震资料研究沉积岩和沉积相的学科。其研究要依据沉积学的规律并且以地质研究为基础。此门学科的运用的主要技术有地层切片、90°相位转换和分频解释等。  [关键词]地震沉积学;研究方法和技术;白云深水区  中图分类号:P315 文献标识码:A 文章编号:1009-914X(2015)05-0115-01  一、地震沉积学的概念  曾洪流提出,地震沉积学是主要应用地震储层预
期刊
[摘要]百度应用引擎(BAE)是百度推出的网络应用开发平台。基于BAE架构,使开发者不需要维护任何服务器,只需简单上传应用程序,就可以为用户提供服务。BAE支持PHP、Java、Python应用的开发、编译、发布、调试。Django是Python的一个优秀的开源Web开发框架,在Web开发方面具有简洁、清晰、高效、安全的优点,特别适合快速构建各类Web应用。本文通过使用BAE和Django搭建系统
期刊
[摘要]本文先对多重加密网络设计的需求和原则进行了分析,互联网应用与人们的生活已经密不可分,随着近些年层出不穷的隐私信息泄露事件的发生,网络服务的安全问题越来越受到人们的重视。VPN技术作为网络安全的利器,得到了非常广泛的应用。VPN系统的进一步完善和发展,也是网络安全领域中一项较为重要的议题。本文针对传统的VPN系统的不足人手,提出了一种将云计算和VPN系统融合的实现方式。  [关键词]网络安全
期刊
[摘要]智慧警务是指在新一代信息技术快速发展背景下,以互联网、云计算、物联网、智能引擎、视频技术、数据挖掘等为技术支撑,通过互联化、物联化、智能化等方式,以公安信息化为核心,掌控“屋、车、路、网、场、组织”等周边要素,高度智能化的的一种新型警务运作模式。其要旨是汇聚人的智慧,赋予物以智能,使汇集智慧的人与具备智能的物互存互动、互补互促,以实现公安效益最优化。本文从智慧警务的内涵和要素分析人手,从共
期刊
[摘要]通过有针对性地对互联网信息进行过滤、整理、分析,及时发现危害国家安全、扰乱社会秩序、图谋实施犯罪等有价值的信息,从而及时预防、制止不法活动的发生,有效打击犯罪,为人民生活创造良好的社会环境。本文着重对舆情系统中相关技术进行细致的研究,实现网络舆情的系统监控,及时准确地有针对性的获取相关信息,从而发现、掌握特定的动态信息,为国家决策部署提供有力的依据。  [关键词]爬虫;中文分词;信息指纹;
期刊