基于百度地图API和Moran'sI指数的空间统计分析

来源 :现代商贸工业 | 被引量 : 0次 | 上传用户:lly6739
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:在进行空间统计分析的方法中,传统的空间统计方法在构建空间权重矩阵时,往往需要进行人工测量和手写,这些可能步骤会降低精准度和增大误差的偶然性,为了简化空间统计分析中构建空间权重矩阵的步骤,提出了一种基于百度地图API和Moran'sI指数的空间统计分析方法。该方法调用了百度地图开放的免费接口可以得到目标地点的精确位置,从而利用了百度地图的准确性,减少了人工构建矩阵的误差可能性。经过对江苏省代理ip延迟分布的空间自相关分析实验,得到江苏省代理ip存在空间自相关的结论,验证了该方法的可行性。虽然在验证的过程中使用的是传统的Moran'sI检验,但经过可视化处理后观察得到与模型结论的一致性,验证了模型的可行性。因此提出的方法有效的提高了模型的准确性和简化了模型的构建难度。
  关键词:百度地图接口;代理ip;空间权重矩阵;Moran'sI检验
  中图分类号:TB 文獻标识码:Adoi:10.19311/j.cnki.1672-3198.2019.26.106
  1 引言
  随机互联网发展迅猛,重要数据很容易沉没于互联网之海。人工采集数据的方法已经不能满足快速获取有效信息的需求。网络爬虫成了当下获取网络信息的一大渠道,同时各网站也出现了对应的反爬虫策略,比如将爬虫的ip拉入黑名单就是最常用的策略。通常避免ip黑名单的方法就是加入代理ip。并且免费代理ip在西刺代理、快代理等各大网站有发布。面对杂乱无章的代理ip列表,对各地列表进行空间统计分析,作为采集ip的一种参考。
  空间相关性研究是空间统计学的研究手法,其应用领域已经进入到金融学、病理研究、社会学、环境学等多种领域。对于传统空间统计方法有Moran’sI检验和Geary’sC检验,但几乎所有空间统计方法需要用到空间权重矩阵,该矩阵一般由研究者监测和手写,有不易编辑的缺陷。百度地图 API 是百度公司免费为开发者提供的地图应用网络编程接口,无须任何版权费用,利用它可以很好地实现本系统的开发。本文充分利用百度地图 API 提供的丰富的地图接口进行开发计算空间权重矩阵,以我国代理ip网站特点的基础,将空间统计分析方法运用到免费代理ip分布研究中。
  2 相关技术研究
  2.1 空间自相关指标Moran'sI指数
  空间单元的分布特征和聚集趋势可以由空间自相关性来反应,因此对空间相关性进行测度,也就是单元聚集趋势的程度。Moran指数是由Moran于1948年提出的 ,反映的是空间邻接或空间邻近的区域单元属性值的相似程度。Moran’sI检验是对已知某种属性的数据数组进行评估,从而判断其是否满足离散模式、聚类模式或是随机模式。指数计算公式如式(1)。
  在(1)式中,I为全局Moran’sI指数,Ii为局部Moran’sI指数,wij为空间权重矩阵i行j列元素,xi为空间观测值矩阵第i个观测值,xMean为观测值平均值,n为观测值个数。I的取值可经过标准化到[-1,1]中,正数表示观测值相似的空间会趋近在一起,负数表示观测值相近的空间会远离,等于0表示不存在空间自相关;I值与1的差越小,空间单元之间差距越小。I值与-1的差越小,空间单元差距越大。当I接近于-1/(n-1)时,观测值之间才相互独立,即属性的分布呈无规律的随机分布状态。全局型指标能够判断出现像在空间上的整体分布情况,但难以探测出聚集的位置所在及区域相关的程度。忽略了空间过程的潜在不稳定。到底是高高集聚还是低低集聚?哪个区域单元对全局贡献更大?这就必须进行局部空间自相关分析。局部指标用于反映整个大区域中一个局部小区域单元上的某属性值与相邻局部小区域单元上同一属性值的相关程度。对观测值在空间上是否存在空间自相关,可计算Z值推断,计算公式如式(2)。
  2.2 百度地图坐标接口
  百度地图为开发者提供了丰富的接口调用主要提供JavaScript、iframe、WebService和http + xml 等接口,包括定位、地图、搜索、鹰眼轨迹、导航路线规划路况等功能。开发者可以很方便地访问百度服务和数据,创建功能全面、交互性强的地图应用程序,支持 PC端和移动端基于浏览器的地图应用开发,且支持HTML5特性的地图开发。其中的正/逆地理编码功能即可得到对应地点的经纬度,利用Python的requests模块对百度地图应用发起请求可随时使用该功能。百度地图的开发文档可见网址http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-geocoding,请求需要填写的参数如表1。
  2.3 爬虫爬取免费代理网站
  为了研究代理ip的分布特征,需要爬取代理ip的数据,数据公布较全面、反爬虫策略较少、更新及时的网站适合作为数据来源。反爬虫机制,即一系列反爬虫措施的集合。反爬虫机制通过预处理请求头、封锁IP、异步加载、使用加密JS算法、设置验证码等措施达到封锁爬虫的目的。支持网络通信的编程语言均可以编写网络爬虫,Python因为有大量优秀的爬虫库,代码简洁易懂,在网络爬虫领域有着广泛的应用。与调研百度地图API的原理相同,需要用到Python的requests模块对免费代理网站进行访问。在获得网页HTML源码后,利用xpath表达式可以得到对应网页中的元素,其中xpath表达式可在浏览器进入代理网站后,右击对应元素打开开发者工具可以得到浏览器提供的表达式。最后将数据写入sqlite数据库,供后续程序调用。
  3 基于百度地图API和Moran'sI指数的空间统计分析方法
  代理ip广泛应用与信息安全领域,本文研究的方法以江苏省代理ip延迟在空间自相关的统计分析为例,在爬取完数据后,数据应有ip、端口、延迟时间、地点等属性,数据库中部分代理ip如表2。   3.1 利用百度地图API构建空间权重矩阵
  按照文档内容,利用python的requests编写爬虫填写表1参数发起get请求即可得到对应地点的经纬度。空间数据自身带有空间位置属性,隐含了相对地理位置关系,因此需构造空间权重矩阵度量空间单元的距离,把空间信息转化为数值,利用API获得经纬度如表3。
  对两地坐标计算欧氏距离,然后以反距离权重法计算距离的p次方的倒数作为权重,本文的p为3,为了得到标准的Moran'sI指数,需要进一步的将矩阵进行行归一化使得行元素和为1如式(4),最终的权重矩阵下:
  空间权重矩阵行列索引均为[南京市,南通市,常州市,徐州市,无锡市,淮安市,盐城市,苏州市,镇江市]。市区与市区间的权重表示距离,距离越大,权重越小,主对角元素为0表示自己不与自己相邻。空间权重归一化后,不再有数量级影响,只反应空间单元的位置关系。
  3.2 Moran'sI检验
  本文的观测矩阵为2016年江苏省代理ip的延迟均值,观测空间为江苏省9个市,因为网站对2016年公布的代理ip最为齐全,保证各市当年样本量大于30,观测矩阵如表4。
  根据式(1)可求得全局Moran'sI指数为0.37710,说明江苏省市级之间的ip代理之间呈空间正相关,局部Moran'sI指数见表5,Moran散点图如图1,以观测离差值和标准化观测值为坐标点的Moran散点图,常来研究局部的空间不稳定性,它对空间滞后因子进行可视化。变量观测值和其空间滞后之间的拟合程度(直线的斜率)恰好是Moran'sI系数。
  可见无锡市、镇江市和苏州市存在显著空间正相关,呈现空间聚集模式,对全局的空间聚集模式贡献较大,将观测值和局部Moran'sI指数进行可视化绘制热力图,如图2和图3。
  由图1和图2可看出江苏地区的代理ip延迟有属性值高的区域与属性值高的区域聚集在一起现象,为了进一步验证该特征,需进行Z值检验以确认造成此种相关性的原因是由于偶然因素或系统过程,根据式(2)可以得到全局Z检验数为2.3906,局部Z检验数如表6。
  原假设为观测空间上不存在空间自相关,全局Z检验数>1.96,证明观测值在0.05的水平上显著,选择拒绝原假设,因此认为观测空间上存在空间自相关,Z值大于0且显著,相似的观测值(高值或低值)趋于空间聚集。
  4 结论
  本文提出一种基于百度地图API和Moran'sI指数的空间统计分析方法,以江苏省各市的免费代理ip分布为例,首先用Python编写爬虫爬取得到代理网站的数据。整理得到各市的代理ip延迟时间平均值作为观测值矩阵,然后编写爬虫发起网络请求调用百度地图API得到江苏省各市的经纬度,使用反距离权重法求得空间权重矩阵,最后求出全局和局部Moran'sI指数,进行显著性验证后得到江苏省代理ip延迟存在空间自相关的结论。整个过程验证了该研究方法的可行性,成功缓解了传统研究方法对生成空间权重矩阵的不便,同时利用了百度地图的精准度提高了研究的精准度。
  本文利用基于百度地图API和Moran'sI指数的空间统计分析方法进行实验,并取得了良好的实验效果,但该方法并没有考虑空间统计学中时间维度的影响,也没有采用当下更前端的空间统计检验方法,只是从技术层改进了传统空间统计的步骤,所以讨论更多改良算法是下一步研究的重点。
  参考文献
  [1]白杨.Python代理IP定向采集爬虫的设计与实现[J].中国新通信,2019,21(01):40-41.
  [2]刘石磊.对反爬虫网站的应对策略[J].电脑知识与技术,2017,13(15):19-21.
  [3]王雪青,陈媛,刘炳胜.中国区域房地产经济发展水平空间统计分析——全局Moran's I、Moran散点图与LISA集聚图的组合研究[J].数理统计与管理,2014,33(1):59-71.
  [4]王仲君,邹亚娟,赵华玲.基于空间自相关的肺结核扩散的机理分析[J].中国卫生统计,2013,30(5):630-634.
  [5]曾昭法,左杰.中国省域城镇化的空间集聚与驱动机制研究——基于空间面板数据模型[J].中国管理科学,2013,(S2):580-586.
  [6]潘竟虎,张文,李俊峰,等.中国大范围雾霾期间主要城市空气污染物分布特征[J].生态学杂志,2014,33(12):3423-3431.
  [7]王红崧,周海晏.基于百度地图API的旅游地理信息系统开发[J].现代计算机(专业版),2012(23):60-63.
  [8]戴平生,陈建宝.空间统计学研究应用综述[C]//国际应用统计学术研讨会,2008.
  [9]郑静,许学强,陈浩光.广州市人口结构的空间分布特征分析[J].热带地理,1994,14(2):133-142.
  [10]Cliff A D,Ord J K.Spatial Processes[M].London:Pion,1981:266.
  [11]苗得文,邱满,许忠奇,等.基于NewMap API的地图服务系统在交通拥堵识别中的应用研究[J].计算机科学,2013,40(Z6):384-386.
  [12]王静.基于Scrapy的电子商务网络测量与网络特征分析[D].北京:北京交通大学,2012.
  [13]彭程.基于空间统计分析的农产品价格数据挖掘——以猪肉价格为例[J].农业现代化研究,2014,35(1):000029-32.
  [14]李新,程国栋,卢玲.空间内插方法比较[J].地球科学进展,2000,15(3):260-265.
  [15]徐偉嘉,何芳芳,李红霞,等.珠三角区域PM_(2.5)时空变异特征[J].环境科学研究,2014,27(9):951-957.
其他文献
摘 要:互联网信息技术日新月異,在“十三五”强调保护知识产权的政策背景下,应对网络服务提供者利用信息技术规避监管的法规、措施逐步出台。有学者指出,避风港规则正为这些法规、措施取代,在实务中存在失灵的可能性。因此,针对提供链接、搜索服务的网络服务提供者,结合法院判决实例分析影响避风港规则适用的因素,从而揭示法院在平衡网络服务提供者的信息传播积极性及其著作权保护义务时的取舍。  关键词:网络服务提供者
期刊
摘 要:政府诚信不仅是社会诚信体系的一部分,更是社会诚信建设体系当中的重中之重。构建了政府诚信度评估指标体系,并对成都市龙泉驿区进行实证分析。由此得出成都市龙泉驿区政府诚信度的状况,并对该地政府诚信度做了一个简单评价。  关键词:政府诚信;指标体系;评估模型  中图分类号:D9 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.26.074  1 引言  近年来,
期刊
摘 要:随着国内高等院校办学规模的持续扩大,高等院校财务管理存在的问题日益凸显,不断加强内部控制是高校财务管理必须要落实的。从内部控制视角下深入研究高等院校财务管理的问题,以A学院为例,分析其在财务内部控制中的现状和问题成因。并从五个方面提出了建立健全高等院校财务内部控制的建议,以期为我国高等院校财务管理建设提供借鉴与参考。  关键词:高等院校;内部控制体系;财务管理; COSO五要素  中图分类
期刊
摘 要:长久以来,人们普遍关注城市人口的养老问题,而对于农村养老问题却过于忽视。基于在天津市北辰区部分农村的实地调研,提出了农村养老保障面临的个人养老与家庭养老的内在矛盾、空巢老人的养老困境以及土地保障功能弱化、老年人再就业阻力大等问题,并针对问题从多主体、多角度提出了可行的建议,力求为改善农村养老现状、健全完善农村养老保障体系、促进城乡统筹发展贡献一份力量。  关键词:农村;养老保障;问题;对策
期刊
摘 要:教育部吴岩司长的报告中明确指出要建设中国大学金课,淘汰水课,重视教学的春天已经到来。课程是教育最微观问题,但解决的却是教育最根本问题!随着移动互联网、物联网、大数据和云计算为代表的信息技术迅猛发展,在教育教学活动中不断涌现出新的教学形式。以翻转课堂的教学设计和实施效果为主线,分析阐述了翻转课堂的内涵、特征、实施的关键因素等;通过笔者本学期在一线教学工作中的实践体会,对翻转课堂模式的教学改革
期刊
摘 要:随着京津冀协同发展战略的不断推进,高层次人才流动速度日益加快,越来越多优质人才前往京津两地就业发展,人才流失已成为制约河北经济发展的重要因素。在京津冀协同发展背景下,构建“引进—留用—后续培养”人才流失突破路径,解决河北省人才流失问题。  关键词:京津冀协同发展;人才流失;突破路径  中图分类号:F2 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.25
期刊
摘 要:以贵州苗族蜡染的工艺和技术来进行阐述,在记录蜡染过程的同时也是对非物质文化遗产的一种传承。贵州植物的蓝靛蜡染在成分上是属于中草药,对人体无伤害。在点蜡的图案上面基于苗人对自然界的认知和对生活的热爱,一种自然有趣、千姿百态、流畅优美的生活画卷栩栩如生的展现人面前,穿在人身上。记录苗族蜡染这一传统过程,传承和创新成为真正意义上的行走中的艺术。  关键词:苗族蜡染;苗族习俗;传统文化;图案纹样 
期刊
摘 要:在响应政府“大众创业、万众创新”号召的大背景下,武汉商学院紧紧围绕“创新创业”的主题开展了一系列创新创业项目活动,旨在激发学生创新意识和创造思维。将基于武汉商学院大学生创新项目——“悦途”旅游,以武汉商学院大学生为调研对象,通过问卷调查、案例分析、历史文献分析及实地调研等方法,探析旅游电子商务的发展现状及挑战,探寻“悦途”旅游电商平台的发展机遇。  关键词:旅游业;电子商务;创新;挑战;机
期刊
摘 要:人口老龄化是当今世界性的重大事情和发展背景。当前我国已经进入老龄化快速发展阶段,这将给我国欠发达地区中小城市的城市规划带来巨大的挑战。以贵州省六盘水市为例,分析了六盘水城市规划应对人口老龄化存在的问题,并提出了应对老龄化的城市规划理念和要点,对我国西部地区城市的城市规划如何应对人口老龄化作了一定探讨。  关键词:人口老龄化;六盘水市;城市规划  中图分类号:F2 文献标识码:Adoi:10
期刊
摘 要:廉政文化建设已经成为新时期下党风廉政建设和反腐倡廉工作的有效载体和重要抓手,而高校廉政文化建设更是构建高校惩防腐败、廉洁教育体系的核心工作,是一项长期而复杂的工作任务。高校是培养具有一定专业素质社会主义事业建设者的教育阵地,担负着倡导和推进廉政文化建设的历史使命与责任。因此,面对新时期下的特殊社会形势及发展要求,高校必须积极探索廉政文化建设模式,将廉政文化融入校园日常管理之中,持续长效地开
期刊