基于分布式网络爬虫的Web空间数据获取方法研究

来源 :2016中国地理信息科学理论与方法学术年会 | 被引量 : 0次 | 上传用户:cjz1107
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着大数据时代的来临,互联网上空间数据的来源越来越多、规模越来越大、更新速度越来越快,采用单机网络爬虫获取Web空间数据由于受到抓取覆盖率和抓取时间性能瓶颈的限制,难以保证抓取数据的及时性和全面性。因此本文研究了基于分布式网络爬虫的Web空间数据获取方法,不是通过增加单个爬虫系统的负荷而是通过增加更多的爬虫系统成员来提高数据获取的性能和效率。同时设计和实现了基于分布式网络爬虫的Web空间数据获取原型系统,通过对原型系统进行测试证实了本文所述方法的有效性。
其他文献
  为了解决车辆的越野路径规划问题,分析了影响车辆越野通行的主要影响因子。提出了采用六角格网为基础格网量化地形的数据模型,研究了六角格网的空间数据结构以及六角格网属
  城市医疗设施是城市公共设施的重要组成部分,其有效布局不仅能够方便患者就医,而且能够提高城市整体医疗服务水平,促进城乡一体化发展。传统的资源人口比值法和卫生公平性测
  城市基础建设往往包含了很多山坡下的进行的地下工程,比如隧道和涵洞。这些地下岩土工程会对生态环境造成不同程度的影响。地表生态,作为生态评估的一个重要指标,受到了市政
会议
  地表降雨径流过程的模拟对地理国情监测与灾害风险评估具有重要的研究意义和应用价值。现有的模拟方法主要包括集总式模型和分布式模型,前者依据地表观测站获得的降雨量与
会议
  本文应用空间面板模型(Spatial Panel Model)能结合时间序列和截面数据分析变量关系的优势,研究了成都市PM2.5 污染现状的变化规律,探索了PM2.5 与其他污染物的时空联系.
会议
  自香农信息论被引入遥感领域以来,遥感图像的信息量一直使用香农熵衡量。香农信息论源于热力学,其核心概念为香农熵。香农熵源自对热力学领域玻尔兹曼熵的改进。在热力学中
会议
  人口数据空间化可客观表达区域人口分布信息,为区域可持续发展提供建议。早期学者通过全国土地利用数据建立人口-土地量化关系,通常采用统一回归模型,但其结果精度较低,不利
会议
  滑坡是危害最严重的地质灾害之一,从多模态滑坡监测数据中发现滑坡灾害的前兆信息和临灾突变信息是国际研究的前沿热点。多模态滑坡监测数据是滑坡致灾因子的数值表征,多种
会议
  Borehole temperature comprises an independent archive of information on climate change which is complement-ary to the meteorological and other climate proxy
会议
  尺度在地理学中一直是一个重要的概念。在不同的尺度下得到的地理空间规律往往存在差异。研究以地表温度(LST)和NDVI为例,分析尺度对于变量之间相关性的影响。