基于SPSS的我国各省市互联网使用状况分析

来源 :软件 | 被引量 : 0次 | 上传用户:wqg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要: 随着信息高科技的快速发展,互联网技术将人类的文化传播带进了一个崭新的时代,即人们所称为的网络时代.我们几乎每天都要与网络打交道,它已经成为日常生活中不可或缺的一部分,网络已经很大程度上改变了人们的生活。人们对信息的需求不断增加,加大了人们的信息消费,而今互联网已成为我们生活中不可缺少的东西,互联网也正在潜移默化地影响着我们的生活方式、学习方式、交往方式。本文围绕我国各省市的互联网的使用状况进行分析,用聚类分析、主成分分析、对应分析方法分析各省市的互联网的使用情况,兼用SPSS软件,以此得出数据分析的结果以及各省市在互联网使用上的状况的差异。
  关键词: 互联网技术;聚类分析;主成分分析;SPSS软件
  【Abstract】: With the rapid development of information technology, Internet technology has brought human cultural communication into a new era, which is called the Internet age. We have to deal with the Internet almost every day, and it has become impossible in daily life. Part of the gap, the Internet has largely changed people's lives. People's demand for information is increasing, and people's information consumption has increased. Today, the Internet has become an indispensable part of our lives. The Internet is also affecting our way of life, learning, and communication. This paper analyzes the use of the Internet in various provinces and cities in China, and analyzes the use of the Internet in various provinces and cities by cluster analysis, principal component analysis and corresponding analysis methods, and uses SPSS software to obtain the results of data analysis and the provinces and cities. Differences in the status of use of the Internet.
  【Key words】: Internet technology; Cluster analysis; Principal component analysis; SPSS software
  0  引言
  互联网应用正在中国的城市中迅速普及,已经深入到人们的日常生活,并且直接影响了人们的观念和行为。网络正在改变传统的媒介使用,正在改变人们日常交流方式,在一定程度上也开始改变政府和民众交往的方式,并且作为一种开放的技术,互联网也正在对中国相对封闭的传统、文化和体制产生深刻的影响。调查和研究互联网网络的使用现状及其影响成为当务之急。在当今社会下,互联网数据的统计有多个指标,随着时代的变迁和网络时代的迅速发展,指标的时效性也会发生变化。因此本文以2017年中国统计年鉴统计的数据,运用聚类分析、主成分分析、对应分析三种分析方法来分析数据指标之间的内在关系,从而分析出各省市在互联网的使用下对各项指标的应用,进而分析出各省市在互联网的使用上数据的差别,分析出相应的结论。
  1  相关理论方法
  1.1  聚类分析
  聚类[1]分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的原则是直接比较样本中各事物之间的性质,将性质相似的归为一类,而将性质差别比较大的分在不同类中,也就是说,同类事物之间的性质差异小,类与类直接的事物性质相差较大。描述样本间的亲疏程度最常用的是聚类,其中欧式距离[2]在聚类分析中用的最为广泛。聚类的方法主要有系统聚类法,模糊聚类法,k-均值法,有序样品聚类等。
  1.2  主成分分析
  主成分分析[3](Principal component analysis)是由霍特林于1933年首先提出來的。主成分分析是利用的降维的思想,在损失很少的信息的前提下,把多个指标转化为几个综合指标的多元统计方法。在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律、人们往往要考虑与其有关系的多个指标,这些指标在多元统计学中也称为变量。既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素。根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
  1.3  对应分析
  对应分析[4](Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。   对应分析的基本思想是将一个列联表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
  它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
  对应分析法整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开。列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
  2  数据获取及分析
  2.1  数据来源
  根据中国统计年鉴[5]公布的截止到2016年底我国31个省市互联网使用状况统计数据,利用SPSS软件将统计好的数据输入得出以下分析。
  2.2  聚类分析
  2.2.2  SPSS软件分析
  由图1可以看出,广东为第一类;北京为第二类;江苏、浙江、山东为第三类;河北、河南,四川、安徽、湖北、辽宁、湖南、上海、福建为第四类;其余的为第五类。说明经济发达的省区如广东、北京单独分为了一类,浙江、江苏等经济发展水平较高的地区归为了一类[6]。
  2.3  主成分分析
  利用31省标准化后的数据进行分析,分析结果如表4所示。
  由表4输出结果看到,前两个主成分y1,y2的方差占全部方差的比例为89.845%。我们就选取y1为第一主成分,y2为第二主成分,且这两个主成分的方差和占全部方差的89.845%[7],即基本上保留了原来指标的信息,这样由原来的10个指标转化为 2个新指标,起到了降维的作用。
  由图2碎石图可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的[8]。
  对SPSS的因子分析模块运行结果输出的成分矩阵的第i列的每一个元素分别除以第i个特征根的平方根,就得到主成分分析的第i个主成分的系数,结果见表6。
  由表7的得分中,有的省份的分数是负数,但并不表明这个省份的互联网使用情况就是负的,这里的正负仅代表各省份与平均水平的位置关系[10],各省份的互联网接入情况的平均水平算作零点,这是我们在整个过程中将数据标准化的结果。
  从表7可看到,广东的互联网的综合使用情况最好,是第一名;浙江的互联网的综合使用情况为第二名;西藏的互联网的综合使用情况最差。
  2.4  对应分析
  上述表8给出了行和列记分的关系。惯例比例[11]代表各维度分别解释总惯量的比例及累计百分比,从中可以看出第一维和第二维的惯量比例占总惯量的90.1%,因此可以选取两维来进行分析。
  在SPSS的输出结果中还给出了绘制最后叠加的散点图所需的两套坐标。首先是关于行变量(地区)的点坐标表,例如北京(2.538,5.067),河北(–0.048,–0.708)等,如表9所示。
  同样地,列变量(互联网变量)的点的坐标表见输出结果表10,例如互联网宽带接入端口(1.067, –0.860),互联网拨号用户(1.625,–0.360)等。
  由以上两张坐标表可以得出如下叠加散点图(见图3)。从输出结果图3看出,我国的经济发达地区,如广东、江苏等,主要在互联网宽带接入端口,移动互联网接入流量,移动互联网用户和互联网上网人数上对互联网的使用占有较大比重;江西、安徽、辽宁、河北等主要在互联网接入端口上分析出对互联网的使用状况,个别省区,如上海、北京,浙江经济发展迅速,在互联网的网页数,互联网的拨号用户、网站数和域名数上使用范围普及广。
  从我国的目前的经济发展状况来看,大部分的省区都以逐渐的接入了互联网宽带,使用人数逐渐增多,互联网的普及力度逐渐加大。随着我国经济的不断发展和进步,这种省区之间的互联网的使用情况也会发生一定的变化。
  3  结语
  从统计分析结果上得出,广东、浙江、江苏的互联网的综合使用情况较好,互联网在这些地区的
  发展和使用情况领先于其他地区。当前的时代属于大数据时代[12],软件测试面临着很多的挑战.21世纪是信息化的时代,互联网发展影响着世界各国的经济、政治、文化和社会的发展,同时推动了社会生产生活和信息传播的变革。互联网为经济发展提供了平台,经济间的交流破除了空间与时间的限制,扩大空间范围,减少经济运行成本。一个地区互联网的使用情况可以很大程度的影响该地区的信息化程度,凭借互联网的优势可以实现市场战略优化,带动地方经济收益持续增长。同时互联网的发展对于一个地区的经济战略转型提出了严格要求,把握互联网经济趋势是地方经济转型的重点。根据分析结果显示,互联网宽带接入端口、移动互联网用户、移动互联网接入流量、互联网上网人数、网站数这些因素在互联网的发展和使用中起着很大的推动作用。因此地方政府对于网络的使用和发展中可以从以下几个方面入手:首先对互联网知识的普及是一个重要的方面,从公民入手,使得他们对于网络的经济效应有一定的了解;其次政府可以对互联网的安装和使用制定相应的惠民政策;最后政府应着重关注各地区的经济战略转型,以网络经济为中心构建新的格局,把握网络经济改革的风向。因此对于一个地区互联网的普及可以着重从这些方面入手,进而可以更好地推动互联网和经济发展的进一步结合,使得经济的发展结构得到转型,经济发展水平得以提升。
  参考文献:
  杜淑颖. 基于大型数据集的聚类算法研究[J]. 软件, 2016, 37(01): 132-135.
  何晓群, 现代统计分析方法与应用[M], 北京: 中国人民大学出版社, 1998.
  赵海霞, 武建. 浅析主成分分析方法[J]. 科技信息, 2009(2).
  对应分析数学模型及其应用, 陶凤梅, 韩燕等[M]. 北京: 科学出版社, 2008.
  中国统计年鉴. 北京: 中国统计出版社, 2017.
  Bryan F. J. Manly. Multivariate Statistical Methods: A Primer. Chapman and Hall, 1986.
  MacQueen, J. Some Methods for Classification and Analysis of Multivariate Observations, the 5th Berkley Symposium on Mathematics. Statistics and Probability, 1967.
  张文宇, 王秀秀, 任露, 等. 改进的主成分聚类分析法在教育信息化中的应用[J]. 软件, 2015, 36(7): 10-16.
  王学仁, 王松桂. 实用多元统计分析. 上海: 上海科学技术出版社, 1990.
  袁志发, 宋世德. 多元统计分析. 北京: 科学出版社, 2009.
  G. A. F. Seber. Multivariate Observations. John Wiley & Sons, Inc., 1984.
  張琪. 大数据背景下软件测试的挑战与展望[J]. 软件, 2018, 39(6): 181-183.
其他文献
摘 要: 目前包车市场极其火爆,其中了解用户满意度对市场竞争尤为重要。以大学生包车服务平台为主体,构建用户满意度评价体系,并用层次分析法计算各指标权重,根据指标体系设计用户满意度调查问卷,采用SPSS软件对问卷进行有效性分析并构建结构方程,依据各指标用户满意度分析平台存在的问题,并提出改进方案。  关键词: 包车服务;用户满意度;AHP;SPSS  【Abstract】: At present,
期刊
摘 要: 机关事业单位人事管理制度错综复杂,加之人员不断增加、信息密度不断提高,对人力资源管理工作的要求更高。随着信息技术的快速发展,传统人力资源管理方式已经无法适应时代的进步和发展。本研究在对我单位人力资源管理现状和业务流程进行详细分析的基础上,整合现有资源,结合实际工作需求,构建了基于Web Service的人力资源管理信息系统,使人力资源管理更加科学、规范、高效,实现对人力资源信息的系统化、
期刊
摘 要: 随着工业社会的发展,空气质量问题已经成为环保任务的主要焦点。BP神经网络作为深度学习的一种,已经在大部分领域被广泛使用。为了让广大市民更好的了解空气质量情况,本文以云南省昆明市为例,收集当地近6年的空气质量数据,并基于Python语言,在Anaconda环境下的Numpy包建立了三层神经网络数学模型,对空气质量等级进行分类预测。通过训练样本对神经网络模型的训练以及相关参数的调试,得到較好
期刊
摘 要: 区块链和智能合约是近几年最热门的技术,区块链技术具有去中心化、匿名化、可溯源等特性,智能合约是存储在区块链上的公开可执行代码,允许在没有第三方参与的情况下进行可信交易,这些交易可追踪且不可逆转,因此,将其应用在最不可信的C2C交易业务中具有较高的研究价值和实用价值。本文利用以太坊区块链平台和智能合约实现了C2C交易系统,利用该系统可以实现匿名且安全的交易,解决了信任问题、降低了信任成本。
期刊
摘 要: 为了了解普兰店市景观类型变化与地形分布的关系,本文利用2000和2010年Landsat 5 TM遥感影像,在ENVI5.3软件的支持下,获取普兰店土地利用类型,并基于DEM数据获取高程、坡度、坡向,将土地利用数据与三者相叠加分析,研究发现:(1)2000~2010年普兰店市土地利用类型变化具有主明显的坡向型特征,集中在半阴坡、阴坡、半阳坡上。(2)2000~2010年普兰店市土地利用类
期刊
摘 要: 在计算机语言学中,词义消歧是自然语言处理的一个重要问题,词义消歧即指根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。本文提出一种基于神经网络的模型实现词义消歧,将词向量输入神经网络,通过分类的方式实现消歧的目的。实验表明,基于神经网络的词义消歧比传统的统计方法消歧具有更高的准确度。  关键词: 词义消歧;自然语言处理;词向量;神经
期刊
摘 要: 针对传统边缘检测方法难以实现边缘信息的准确检测问题,提出了一种零件缺陷边缘检测的新方法.首先对采集到的零件缺陷图像进行灰度化和Wiener滤波,以减少噪声等因素对后期检测的影响;然后,以kalman算法预估图像分割阈值作为Krisch算法的初始阈值;在此基础上,进行零件缺陷边缘检测,以提高零件缺陷检测的准确性. 最后,利用MATLAB软件对零件缺陷图像进行仿真试验,验证边缘检测算法的检测
期刊
摘 要: 随着科学技术的快速发展以及数据挖掘技术的不断改进,各个学校的教学管理系统中都已存储了大量的数据信息,本文主要对目前教师在教学评价中的现状进行了研究,并以教学评价的体系为数据挖掘的基础平台,利用数据挖掘技术对教师教学相关的数据进行挖掘和分析。重点对数据挖掘技术在教师教学评价中的应用进行研究,从而可促进学校教学的质量,对教师教学评价有重大的意义。  关键词: 教师;教学评价;数据挖掘  【A
期刊
摘 要: 为了实现消化道图像中出血病灶的自动识别,本文提出了一种基于卷积神经网络的图像识别系统。该识别系统使用python以及TensorFlow进行卷积神经网络的搭建,并通过对比不同网络结构的识别准确度,选择合适的网络参数和训练参数,最后利用网络的识别结果,通过区域回归方法标记图像中的病灶区域。最终的实验结果表明:该图像识别系统的对于消化道出血图像的识别准确度可达92.30%,并能够在图像中标记
期刊
摘 要: 目前,核电专业系统(核岛系统、常规岛系统、辅助系统)培训多以传统教科书和在线培训系统为主,其知识呈现多是以文字信息和简单的图像、视频信息相结合的方式。这种培训方式知识过于密集和抽象,培训效果一般,并且视频课件维护难度大。为提高核电专业系统培训效果及降低交互式动态课件开发难度,以核电厂实际培训教材为依据设计课件层次和逻辑结构,采用组态软件制作交互式动态课件,开发一套交互式,逻辑动态演示的核
期刊