对大数据研究关键词的聚类分析

来源 :大众科学·上旬 | 被引量 : 0次 | 上传用户:camel1650
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:大数据对全球各领域的理念和方法带来了较大的影响。本文通过对近十年来大数据研究的关键词进行聚类分析,得到了大数据研究关键词的12个类团,以便相关人员更好地了解大数据研究的主要领域。
  关键词:大数据;聚类分析;共现分析
  目前,大数据还没有一个通用且准确的定义。虽然国际上有众多对大数据的不同理解,但人们普遍认为大数据不仅有字面上的海量数据的含义,还包括对这些数据对象的处理和应用。在本文中,大数据被界定为使用非传统处理方法,在合理时间内,对一个体量特别大、数据类型丰富的数据集进行深度挖掘,获得有价值的信息的技术。一般认为,大数据具有3V特征:即Volume(规模性)、Variety(多样性)、Velocity(高速性)。[1]规模性表示其数据体量庞大,多样性表达出大数据的数据来源广、类型丰富且不同类型的数据间可能关联性很强。而高速性强调处理数据的效率,这一点也是它与传统数据挖掘最大的区别。
  本文选取中国知网(CNKI)的核心期刊库作为文献获取来源,采取高级检索,检索式为:主题=(“大数据”),来源类别勾选“核心期刊”并按主题排序。选取自2008年以来每年搜索结果前5页的文献,共1883篇。经过筛选删除不相关的文献,最后得到1563篇文献。导出这些文献的题录信息,以此分析大数据技术近10年来的发展规律。
  从CNKI下载的文献题录中抽取期刊论文的标题、关键词等信息,以endnot格式存入数据库中。通过SATI文献计量软件进行关键词的提取和频率统计后,共得到2008-2019时间段的4058个关键词。在经过关键词的合并与删除后,本文选取了出现频次大于等于8的关键词作为高频关键词,最终得到了52个高频关键词。将这52个关键词两两配对,可得到2008-2019年大数据研究关键词的共现矩阵,如表1所示:
  表1:2008-2019年大数据研究关键词的共现矩阵(部分)
  共现矩阵 数据挖掘 云计算 数据分析 图书馆 聚类 Hadoop MapReduce
  数据挖掘 93 6 8 4 5 0 0
  云计算 6 61 6 4 0 2 5
  数据分析 8 6 56 2 0 0 0
  图书馆 4 4 2 36 0 2 0
  聚类 5 0 0 0 30 0 0
  Hadoop 0 2 0 2 0 30 7
  MapReduce 0 5 0 0 0 7 28
  在共现矩阵基础上,转换得到共现矩阵的相异矩阵,将其导入SPSS軟件后,可得2008-2019年大数据研究关键词聚类的树状图。该图反映出了关键词间的亲疏关系,关键词聚合越早,其间关联度越高;关键词聚合越多,则说明这些关键词所处的类集中程度越高。根据树状图,在阈值为16.5的位置处进行切割,可将大数据技术的相关期刊文献分为12个类团:
  K1类研究的是大数据技术对金融业的冲击,代表关键词是互联网金融、商业银行等。它们属于大数据应用的一部分,但近年来由于互联网对于金融领域的冲击格外大,因此有很多人关注大数据技术作为一种新兴的信息技术会给这个领域带来什么影响。
  K2类研究大数据技术对教育界的影响,代表关键词是教育大数据。教育领域以大数据为基础构建学习者知识、行为、经验模型,制定其学习档案并依此分析科学的教学策略。
  K3类研究数据集成,即将类型、来源不同的数据集合在一起,进行数据和信息共享,以避免信息孤岛现象。
  词团K4是对大数据核心问题的研究。代表关键词为数据分析和数据处理。它们都处于大数据处理的前两个阶段,即数据抽取集成和数据分析阶段。
  K5类是对大数据工具和处理模式进行研究。如前文所述,大数据技术与海量数据最大的区别在于它是否能采用传统的方法对数据进行高效率的处理。因此,以Hadoop为代表的非传统大数据处理工具自然成为了研究的焦点。
  词团K6中包含着两个与大数据技术紧密相关的技术:云计算和物联网。它们的发展为大数据技术提供了良好的平台和技术丰富的数据来源,而大数据技术为处理这些海量的数据提供了可能。
  K7类研究属性约简算法改进,它只包括粗糙集和属性约简两个关键词。基于粗糙集理论的属性约简主要可以用来降维处理高维数据对象,但由于原有的属性约简算法难以处理大数据集,因此很多学者提出了其改进算法,以保证算法的可靠。
  K8主要研究的是数据,代表关键词为数据质量和数据管理,主要探讨怎样管理好这些海量的数据,保证数据的质量。
  K9类研究大数据领域的隐私和安全问题,代表关键词为隐私保护和数据安全。大数据技术虽然给我们的生活带来了便利,但也带来了很多风险,许多过去人们不想被别人知道,或连自己都不知道的习惯被大数据记录了下来并加以分析,将最真实的我们暴露在了互联网的环境下。因此我们急需保护好这些个人隐私,使之得到合理有效的利用。同时,大量数据的集成也给数据的安全性问题带来了挑战。
  K10类探讨的是大数据对情报领域的影响,代表关键词有竞争情报、情报分析等。大数据可以给情报领域带来更细、更丰富的数据流,但也对该领域提出了更高的技术要求。
  K11类主要研究大数据给图书领域带来的革新,代表关键词有数字图书馆、知识服务等。图书领域往往是较早接触新技术的领域,它们的数字化程度普遍较高,接触到的数据量也很大。面对图书馆数字化的需求,大数据技术也成为了相关学者的研究热点。
  词团K12有关数据挖掘,以关联规则和数据仓库等关键词为代表。它是大数据分析最基本的研究途径,用以探究大量数据中潜在的有价值的信息。
  词团K13设计聚类,以聚类和有关方法为代表。它是数据挖掘等互联网技术的基础。
  词团K14中包含的内容较多,主要可分为机器学习和应用两部分。机器学习的代表关键词主要有神经网络、支持向量机等,它也是一项与大数据技术紧密联系的信息技术。而应用方面包括云会计、数据新闻、思想政治教育等,是大数据技术与其他各个领域的结合应用。
  参考文献:
  [1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,(01):146-169.
其他文献
一、教学目标:  会认“筝、鼠”等8个生字;正确书写“纸、哭”2个生字。  综合运用多种方法认字,能辨别“漂”和“飘”的不同。  练习用“再也”说话,能区分“也”和“再也”。  继续学习默读,初步感受友谊带来的快乐。  教学重点:  综合运用多种方法认字,读懂故事内容。  能正确辨别“漂”和“漂”。  教学过程:  欣赏图片,导入新课  出示图片,请欣赏,看,你看到了什么?(生汇报)  师:今天老
期刊
摘要:目的:探討泮托拉唑与奥美拉唑注射剂对胃部溃疡出血的疗效。方法:将我院收集2017年1月-2018年12月的74例胃部溃疡出血患者,随机分组,奥美拉唑注射剂组用奥美拉唑注射剂,泮托拉唑组用泮托拉唑治疗。比较两组胃部溃疡出血止血总有效率;胃部溃疡出血持续的时间、总输血量、住院时间;治疗前后胃液PH水平、Hb监测水平;再出现胃部溃疡出血的比例。结果:泮托拉唑组胃部溃疡出血止血总有效率高于奥美拉唑注
期刊
摘要:伴随社会发展进步,公民思想觉悟、生活水平均得以大幅提高,多元化及国际化市场经济体系进入全新运作阶段,民众对自身私有财产关注程度也日益提升,国家方面也出台相关法律措施对公民私有财产加以保护。民商法为对公民私有财产予以保护的一项重要法律,在践行过程中尚存在部分问题,影响民商法法律作用的充分发挥,须加以改善,增强公民私有财产保护力度。因此,本文即对民商法视角下的保护公民私有财产予以分析。  关键词
期刊
摘要:交互型数字化在小学生学习古诗中的广泛应用,使得它从传统教学模式的枯燥、乏味、难以理解到现在的直观了然,言简意赅,突出重点;从传统教学的师生交互到现在的师生交互与生机交互;从传统的单一时空教学到现在的开放性时空教学等特点,既是对教学手段和教学方式发生了跨世纪的变革,还是促进了教师教学理念和学生学习方式的转变。提高了小学生在古诗课堂参与度,充分调动了小学生在学习课堂中的积极性,从而让小学生的学习
期刊
摘要:随着时代的快速进步,大数据时代得到不断发展。网络信息安全问题越来越成为众人所关注的焦点。而本文根据大数据时代的特征,具体从网络信息安全防护的重要性、大数据时代下影响网络信息安全问题的主要因素、加强计算机网络信息安全与防护的有效策略三个方面展开叙述,旨在给相关研究人员提供参考。  关键词:大数据;计算机网络;信息安全  引言  随着互联网技术的广泛应用,逐渐产生了大量的数据,这也加速了大数据时
期刊
家有沉香,福运亨昌!家有香一缕,福运绵绵长。首先,能够认识沉香,玩得起沉香,便已经证实了您是个福慧之人!没有慧见,你便不会懂得沉香的妙处,没有福气,你便玩不起沉香。沉香,虽然饱含万千妙用,但如若没有福慧,如若没有机缘,你便永远不会懂得!所以说,能认识沉香、玩得了香,足已经印证了您备具福慧。群贤毕至,良禽择木而栖。伯乐聚首,慧眼而识英才。道理是共通的,世上雅玩之物何其之多,翡翠、和田玉、玛瑙、南红、
期刊
摘要:无人机能够为《自然地理学》野外探究提供有力的技术支撑。无人机应用于《自然地理学》野外探究,能够快速获取航空影像、快速计算测试数据、及时供给急救药物。无人机应用于《自然地理学》野外探究的问题主要有:个别型号受到限制、容易引起当地人的恐慌、存在主权侵害的潜在危险。针对这些问题的解决策略主要有:延长无人机的续航时间,提高无人机定位的准确性,提高无人机飞行安全性。  关键词:人工智能;无人机;野外探
期刊
摘要:本文首先分析了城市规划信息管理的价值,接下来详细阐述了城市规划信息资源共享现状,最后对其对策分析做具体论述,希望通过本文的分析研究,给行业内人士以借鉴和启发。  关键词:城市规划;信息技术;资源共享  引言  城市信息资源是城市规划的财富,只有利用有效的信息资源整合、信息资源管理、信息资源服务,才能夠促进各类信息资源在城市规划建设中的合理应用,充分发挥城市规划信息资源的价值。因此,对城市规划
期刊
摘要:无机非金属材料是人类应用最早的材料,20世纪以来,随着电子技术、航天、能源、计算机、通信、激光、红外、光电子学、生物医学和环境保护等新技术的兴起,对材料提出了更高的要求,促进了特种无机非金属材料的迅速发展。至今,出现了变色玻璃、光导纤维、电子发射及高温超导材料和纳米陶瓷等各种新型无机材料。在众多的无机非金属材料中,瓷器是我国古代的伟大发明,具有领先于其他国家上千年的历史。  关键词:发展现状
期刊
摘要:人力资源流动是人力资源的流出、流入和在组织内流动所发生的人力资源变动,它影响到一个组织人力资源的有效配置。本文主要探讨艰苦边远地区县乡基层事业单位人力资源流出问题,并对减少事业单位人员流出问题给出了些浅显建议。  关键词:事业单位;人员流失;影响;建议  一、艰苦边远地区事业单位人力资源流动现状及原因  (一)县乡事业单位人员流动现状  近年来,事业单位人员流动率、辞职率大幅上升。以我县为例
期刊