论文部分内容阅读
摘 要: 随着信息高科技的快速发展,互联网技术将人类的文化传播带进了一个崭新的时代,即人们所称为的网络时代.我们几乎每天都要与网络打交道,它已经成为日常生活中不可或缺的一部分,网络已经很大程度上改变了人们的生活。人们对信息的需求不断增加,加大了人们的信息消费,而今互联网已成为我们生活中不可缺少的东西,互联网也正在潜移默化地影响着我们的生活方式、学习方式、交往方式。本文围绕我国各省市的互联网的使用状况进行分析,用聚类分析、主成分分析、对应分析方法分析各省市的互联网的使用情况,兼用SPSS软件,以此得出数据分析的结果以及各省市在互联网使用上的状况的差异。
关键词: 互联网技术;聚类分析;主成分分析;SPSS软件
【Abstract】: With the rapid development of information technology, Internet technology has brought human cultural communication into a new era, which is called the Internet age. We have to deal with the Internet almost every day, and it has become impossible in daily life. Part of the gap, the Internet has largely changed people's lives. People's demand for information is increasing, and people's information consumption has increased. Today, the Internet has become an indispensable part of our lives. The Internet is also affecting our way of life, learning, and communication. This paper analyzes the use of the Internet in various provinces and cities in China, and analyzes the use of the Internet in various provinces and cities by cluster analysis, principal component analysis and corresponding analysis methods, and uses SPSS software to obtain the results of data analysis and the provinces and cities. Differences in the status of use of the Internet.
【Key words】: Internet technology; Cluster analysis; Principal component analysis; SPSS software
0 引言
互联网应用正在中国的城市中迅速普及,已经深入到人们的日常生活,并且直接影响了人们的观念和行为。网络正在改变传统的媒介使用,正在改变人们日常交流方式,在一定程度上也开始改变政府和民众交往的方式,并且作为一种开放的技术,互联网也正在对中国相对封闭的传统、文化和体制产生深刻的影响。调查和研究互联网网络的使用现状及其影响成为当务之急。在当今社会下,互联网数据的统计有多个指标,随着时代的变迁和网络时代的迅速发展,指标的时效性也会发生变化。因此本文以2017年中国统计年鉴统计的数据,运用聚类分析、主成分分析、对应分析三种分析方法来分析数据指标之间的内在关系,从而分析出各省市在互联网的使用下对各项指标的应用,进而分析出各省市在互联网的使用上数据的差别,分析出相应的结论。
1 相关理论方法
1.1 聚类分析
聚类[1]分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的原则是直接比较样本中各事物之间的性质,将性质相似的归为一类,而将性质差别比较大的分在不同类中,也就是说,同类事物之间的性质差异小,类与类直接的事物性质相差较大。描述样本间的亲疏程度最常用的是聚类,其中欧式距离[2]在聚类分析中用的最为广泛。聚类的方法主要有系统聚类法,模糊聚类法,k-均值法,有序样品聚类等。
1.2 主成分分析
主成分分析[3](Principal component analysis)是由霍特林于1933年首先提出來的。主成分分析是利用的降维的思想,在损失很少的信息的前提下,把多个指标转化为几个综合指标的多元统计方法。在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律、人们往往要考虑与其有关系的多个指标,这些指标在多元统计学中也称为变量。既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素。根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
1.3 对应分析
对应分析[4](Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。 对应分析的基本思想是将一个列联表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
对应分析法整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开。列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
2 数据获取及分析
2.1 数据来源
根据中国统计年鉴[5]公布的截止到2016年底我国31个省市互联网使用状况统计数据,利用SPSS软件将统计好的数据输入得出以下分析。
2.2 聚类分析
2.2.2 SPSS软件分析
由图1可以看出,广东为第一类;北京为第二类;江苏、浙江、山东为第三类;河北、河南,四川、安徽、湖北、辽宁、湖南、上海、福建为第四类;其余的为第五类。说明经济发达的省区如广东、北京单独分为了一类,浙江、江苏等经济发展水平较高的地区归为了一类[6]。
2.3 主成分分析
利用31省标准化后的数据进行分析,分析结果如表4所示。
由表4输出结果看到,前两个主成分y1,y2的方差占全部方差的比例为89.845%。我们就选取y1为第一主成分,y2为第二主成分,且这两个主成分的方差和占全部方差的89.845%[7],即基本上保留了原来指标的信息,这样由原来的10个指标转化为 2个新指标,起到了降维的作用。
由图2碎石图可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的[8]。
对SPSS的因子分析模块运行结果输出的成分矩阵的第i列的每一个元素分别除以第i个特征根的平方根,就得到主成分分析的第i个主成分的系数,结果见表6。
由表7的得分中,有的省份的分数是负数,但并不表明这个省份的互联网使用情况就是负的,这里的正负仅代表各省份与平均水平的位置关系[10],各省份的互联网接入情况的平均水平算作零点,这是我们在整个过程中将数据标准化的结果。
从表7可看到,广东的互联网的综合使用情况最好,是第一名;浙江的互联网的综合使用情况为第二名;西藏的互联网的综合使用情况最差。
2.4 对应分析
上述表8给出了行和列记分的关系。惯例比例[11]代表各维度分别解释总惯量的比例及累计百分比,从中可以看出第一维和第二维的惯量比例占总惯量的90.1%,因此可以选取两维来进行分析。
在SPSS的输出结果中还给出了绘制最后叠加的散点图所需的两套坐标。首先是关于行变量(地区)的点坐标表,例如北京(2.538,5.067),河北(–0.048,–0.708)等,如表9所示。
同样地,列变量(互联网变量)的点的坐标表见输出结果表10,例如互联网宽带接入端口(1.067, –0.860),互联网拨号用户(1.625,–0.360)等。
由以上两张坐标表可以得出如下叠加散点图(见图3)。从输出结果图3看出,我国的经济发达地区,如广东、江苏等,主要在互联网宽带接入端口,移动互联网接入流量,移动互联网用户和互联网上网人数上对互联网的使用占有较大比重;江西、安徽、辽宁、河北等主要在互联网接入端口上分析出对互联网的使用状况,个别省区,如上海、北京,浙江经济发展迅速,在互联网的网页数,互联网的拨号用户、网站数和域名数上使用范围普及广。
从我国的目前的经济发展状况来看,大部分的省区都以逐渐的接入了互联网宽带,使用人数逐渐增多,互联网的普及力度逐渐加大。随着我国经济的不断发展和进步,这种省区之间的互联网的使用情况也会发生一定的变化。
3 结语
从统计分析结果上得出,广东、浙江、江苏的互联网的综合使用情况较好,互联网在这些地区的
发展和使用情况领先于其他地区。当前的时代属于大数据时代[12],软件测试面临着很多的挑战.21世纪是信息化的时代,互联网发展影响着世界各国的经济、政治、文化和社会的发展,同时推动了社会生产生活和信息传播的变革。互联网为经济发展提供了平台,经济间的交流破除了空间与时间的限制,扩大空间范围,减少经济运行成本。一个地区互联网的使用情况可以很大程度的影响该地区的信息化程度,凭借互联网的优势可以实现市场战略优化,带动地方经济收益持续增长。同时互联网的发展对于一个地区的经济战略转型提出了严格要求,把握互联网经济趋势是地方经济转型的重点。根据分析结果显示,互联网宽带接入端口、移动互联网用户、移动互联网接入流量、互联网上网人数、网站数这些因素在互联网的发展和使用中起着很大的推动作用。因此地方政府对于网络的使用和发展中可以从以下几个方面入手:首先对互联网知识的普及是一个重要的方面,从公民入手,使得他们对于网络的经济效应有一定的了解;其次政府可以对互联网的安装和使用制定相应的惠民政策;最后政府应着重关注各地区的经济战略转型,以网络经济为中心构建新的格局,把握网络经济改革的风向。因此对于一个地区互联网的普及可以着重从这些方面入手,进而可以更好地推动互联网和经济发展的进一步结合,使得经济的发展结构得到转型,经济发展水平得以提升。
参考文献:
杜淑颖. 基于大型数据集的聚类算法研究[J]. 软件, 2016, 37(01): 132-135.
何晓群, 现代统计分析方法与应用[M], 北京: 中国人民大学出版社, 1998.
赵海霞, 武建. 浅析主成分分析方法[J]. 科技信息, 2009(2).
对应分析数学模型及其应用, 陶凤梅, 韩燕等[M]. 北京: 科学出版社, 2008.
中国统计年鉴. 北京: 中国统计出版社, 2017.
Bryan F. J. Manly. Multivariate Statistical Methods: A Primer. Chapman and Hall, 1986.
MacQueen, J. Some Methods for Classification and Analysis of Multivariate Observations, the 5th Berkley Symposium on Mathematics. Statistics and Probability, 1967.
张文宇, 王秀秀, 任露, 等. 改进的主成分聚类分析法在教育信息化中的应用[J]. 软件, 2015, 36(7): 10-16.
王学仁, 王松桂. 实用多元统计分析. 上海: 上海科学技术出版社, 1990.
袁志发, 宋世德. 多元统计分析. 北京: 科学出版社, 2009.
G. A. F. Seber. Multivariate Observations. John Wiley & Sons, Inc., 1984.
張琪. 大数据背景下软件测试的挑战与展望[J]. 软件, 2018, 39(6): 181-183.
关键词: 互联网技术;聚类分析;主成分分析;SPSS软件
【Abstract】: With the rapid development of information technology, Internet technology has brought human cultural communication into a new era, which is called the Internet age. We have to deal with the Internet almost every day, and it has become impossible in daily life. Part of the gap, the Internet has largely changed people's lives. People's demand for information is increasing, and people's information consumption has increased. Today, the Internet has become an indispensable part of our lives. The Internet is also affecting our way of life, learning, and communication. This paper analyzes the use of the Internet in various provinces and cities in China, and analyzes the use of the Internet in various provinces and cities by cluster analysis, principal component analysis and corresponding analysis methods, and uses SPSS software to obtain the results of data analysis and the provinces and cities. Differences in the status of use of the Internet.
【Key words】: Internet technology; Cluster analysis; Principal component analysis; SPSS software
0 引言
互联网应用正在中国的城市中迅速普及,已经深入到人们的日常生活,并且直接影响了人们的观念和行为。网络正在改变传统的媒介使用,正在改变人们日常交流方式,在一定程度上也开始改变政府和民众交往的方式,并且作为一种开放的技术,互联网也正在对中国相对封闭的传统、文化和体制产生深刻的影响。调查和研究互联网网络的使用现状及其影响成为当务之急。在当今社会下,互联网数据的统计有多个指标,随着时代的变迁和网络时代的迅速发展,指标的时效性也会发生变化。因此本文以2017年中国统计年鉴统计的数据,运用聚类分析、主成分分析、对应分析三种分析方法来分析数据指标之间的内在关系,从而分析出各省市在互联网的使用下对各项指标的应用,进而分析出各省市在互联网的使用上数据的差别,分析出相应的结论。
1 相关理论方法
1.1 聚类分析
聚类[1]分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类分析的原则是直接比较样本中各事物之间的性质,将性质相似的归为一类,而将性质差别比较大的分在不同类中,也就是说,同类事物之间的性质差异小,类与类直接的事物性质相差较大。描述样本间的亲疏程度最常用的是聚类,其中欧式距离[2]在聚类分析中用的最为广泛。聚类的方法主要有系统聚类法,模糊聚类法,k-均值法,有序样品聚类等。
1.2 主成分分析
主成分分析[3](Principal component analysis)是由霍特林于1933年首先提出來的。主成分分析是利用的降维的思想,在损失很少的信息的前提下,把多个指标转化为几个综合指标的多元统计方法。在对某一事物进行实证研究时,为了更全面、准确地反映事物的特征及其发展规律、人们往往要考虑与其有关系的多个指标,这些指标在多元统计学中也称为变量。既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素。根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。
1.3 对应分析
对应分析[4](Correspondence analysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。 对应分析的基本思想是将一个列联表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
对应分析法整个处理过程由两部分组成:表格和关联图。对应分析法中的表格是一个二维的表格,由行和列组成。每一行代表事物的一个属性,依次排开。列则代表不同的事物本身,它由样本集合构成,排列顺序并没有特别的要求。在关联图上,各个样本都浓缩为一个点集合,而样本的属性变量在图上同样也是以点集合的形式显示出来。
2 数据获取及分析
2.1 数据来源
根据中国统计年鉴[5]公布的截止到2016年底我国31个省市互联网使用状况统计数据,利用SPSS软件将统计好的数据输入得出以下分析。
2.2 聚类分析
2.2.2 SPSS软件分析
由图1可以看出,广东为第一类;北京为第二类;江苏、浙江、山东为第三类;河北、河南,四川、安徽、湖北、辽宁、湖南、上海、福建为第四类;其余的为第五类。说明经济发达的省区如广东、北京单独分为了一类,浙江、江苏等经济发展水平较高的地区归为了一类[6]。
2.3 主成分分析
利用31省标准化后的数据进行分析,分析结果如表4所示。
由表4输出结果看到,前两个主成分y1,y2的方差占全部方差的比例为89.845%。我们就选取y1为第一主成分,y2为第二主成分,且这两个主成分的方差和占全部方差的89.845%[7],即基本上保留了原来指标的信息,这样由原来的10个指标转化为 2个新指标,起到了降维的作用。
由图2碎石图可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的[8]。
对SPSS的因子分析模块运行结果输出的成分矩阵的第i列的每一个元素分别除以第i个特征根的平方根,就得到主成分分析的第i个主成分的系数,结果见表6。
由表7的得分中,有的省份的分数是负数,但并不表明这个省份的互联网使用情况就是负的,这里的正负仅代表各省份与平均水平的位置关系[10],各省份的互联网接入情况的平均水平算作零点,这是我们在整个过程中将数据标准化的结果。
从表7可看到,广东的互联网的综合使用情况最好,是第一名;浙江的互联网的综合使用情况为第二名;西藏的互联网的综合使用情况最差。
2.4 对应分析
上述表8给出了行和列记分的关系。惯例比例[11]代表各维度分别解释总惯量的比例及累计百分比,从中可以看出第一维和第二维的惯量比例占总惯量的90.1%,因此可以选取两维来进行分析。
在SPSS的输出结果中还给出了绘制最后叠加的散点图所需的两套坐标。首先是关于行变量(地区)的点坐标表,例如北京(2.538,5.067),河北(–0.048,–0.708)等,如表9所示。
同样地,列变量(互联网变量)的点的坐标表见输出结果表10,例如互联网宽带接入端口(1.067, –0.860),互联网拨号用户(1.625,–0.360)等。
由以上两张坐标表可以得出如下叠加散点图(见图3)。从输出结果图3看出,我国的经济发达地区,如广东、江苏等,主要在互联网宽带接入端口,移动互联网接入流量,移动互联网用户和互联网上网人数上对互联网的使用占有较大比重;江西、安徽、辽宁、河北等主要在互联网接入端口上分析出对互联网的使用状况,个别省区,如上海、北京,浙江经济发展迅速,在互联网的网页数,互联网的拨号用户、网站数和域名数上使用范围普及广。
从我国的目前的经济发展状况来看,大部分的省区都以逐渐的接入了互联网宽带,使用人数逐渐增多,互联网的普及力度逐渐加大。随着我国经济的不断发展和进步,这种省区之间的互联网的使用情况也会发生一定的变化。
3 结语
从统计分析结果上得出,广东、浙江、江苏的互联网的综合使用情况较好,互联网在这些地区的
发展和使用情况领先于其他地区。当前的时代属于大数据时代[12],软件测试面临着很多的挑战.21世纪是信息化的时代,互联网发展影响着世界各国的经济、政治、文化和社会的发展,同时推动了社会生产生活和信息传播的变革。互联网为经济发展提供了平台,经济间的交流破除了空间与时间的限制,扩大空间范围,减少经济运行成本。一个地区互联网的使用情况可以很大程度的影响该地区的信息化程度,凭借互联网的优势可以实现市场战略优化,带动地方经济收益持续增长。同时互联网的发展对于一个地区的经济战略转型提出了严格要求,把握互联网经济趋势是地方经济转型的重点。根据分析结果显示,互联网宽带接入端口、移动互联网用户、移动互联网接入流量、互联网上网人数、网站数这些因素在互联网的发展和使用中起着很大的推动作用。因此地方政府对于网络的使用和发展中可以从以下几个方面入手:首先对互联网知识的普及是一个重要的方面,从公民入手,使得他们对于网络的经济效应有一定的了解;其次政府可以对互联网的安装和使用制定相应的惠民政策;最后政府应着重关注各地区的经济战略转型,以网络经济为中心构建新的格局,把握网络经济改革的风向。因此对于一个地区互联网的普及可以着重从这些方面入手,进而可以更好地推动互联网和经济发展的进一步结合,使得经济的发展结构得到转型,经济发展水平得以提升。
参考文献:
杜淑颖. 基于大型数据集的聚类算法研究[J]. 软件, 2016, 37(01): 132-135.
何晓群, 现代统计分析方法与应用[M], 北京: 中国人民大学出版社, 1998.
赵海霞, 武建. 浅析主成分分析方法[J]. 科技信息, 2009(2).
对应分析数学模型及其应用, 陶凤梅, 韩燕等[M]. 北京: 科学出版社, 2008.
中国统计年鉴. 北京: 中国统计出版社, 2017.
Bryan F. J. Manly. Multivariate Statistical Methods: A Primer. Chapman and Hall, 1986.
MacQueen, J. Some Methods for Classification and Analysis of Multivariate Observations, the 5th Berkley Symposium on Mathematics. Statistics and Probability, 1967.
张文宇, 王秀秀, 任露, 等. 改进的主成分聚类分析法在教育信息化中的应用[J]. 软件, 2015, 36(7): 10-16.
王学仁, 王松桂. 实用多元统计分析. 上海: 上海科学技术出版社, 1990.
袁志发, 宋世德. 多元统计分析. 北京: 科学出版社, 2009.
G. A. F. Seber. Multivariate Observations. John Wiley & Sons, Inc., 1984.
張琪. 大数据背景下软件测试的挑战与展望[J]. 软件, 2018, 39(6): 181-183.