基于网络爬虫的北京市房价研究

来源 :长江大学 | 被引量 : 3次 | 上传用户：tmsyh

【摘要】

：

随着信息革命的到来,互联网的蓬勃发展,生活方式的改变,网络成为了我们日常生活的必需品。面对大量的网络资源,学会合理地使用搜索引擎则可以给我们带来很多方便。在搜索引擎

【作者】

：

郑苗

【出处】

：

长江大学

【发表日期】

：

2018年01期

【关键词】

：

网络爬虫 elastic-spider 房价数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息革命的到来,互联网的蓬勃发展,生活方式的改变,网络成为了我们日常生活的必需品。面对大量的网络资源,学会合理地使用搜索引擎则可以给我们带来很多方便。在搜索引擎中,我们利用一些关键字进行搜索,它就会返回给我们大量的跟这个关键字相关的信息,在这个过程中,不得不提的就是爬虫技术了。搜索引擎就是充分地运用了爬虫技术才得以从海量的信息网络中抓取到与之关联的信息,并快速地响应给我们。但是随着数据时代的到来,网络信息浩如烟海,随着技术的更迭,反爬虫也越来越得到重视与加强,从中提取出我们需要的信息也变得越来越困难了。另外,房价现在是我们生活中最热门的词汇之一,它与我们每一个人都息息相关。因此,房价的数据也是很值得做一番研究的,将计算机网络爬虫技术运用到房价中,则正是本文研究的内容之一。首先,我们需要一些房价的数据。在此之前,我们需要确定房价数据的来源,即目标网站。对比分析了几个著名的房产信息网站,最后确定了以“安居客”为爬取对象。然后,就是如何抓取房价数据了,这方面的工作可以通过计算机爬虫技术来完成。针对爬虫本身,本文中我运用了一款新型的网络爬虫框架,名叫elastic-spider,这是一款基于java语言开发的分布式爬虫框架。这也是本文的重点研究内容之一。现阶段,使用得比较广泛的网络爬虫框架有Nutch、Scrapy、Crawler4j等,但是它们都存在一些缺陷,Nutch定制爬取能力很弱,且集群中数量如果太少的话,爬取效率很低;Scrapy抓取速度较慢;Crawler4j不支持动态网页的抓取,即对AJAX的请求不支持。而elastic-spider网络爬虫框架则能很好地解决上述几个问题,它主要有三大优点。第一、该框架是异步的,因此执行效率非常高;第二、该框架支持分布式爬取,不会因为集群中的单节点挂掉,导致整个服务不可用;第三、该框架可扩展性极强,下载、解析,存贮等模块均支持由开发者自由扩展。本次研究所实现的网络爬虫程序正是基于elastic-spider爬虫框架实现的。该爬虫共计爬取了北京市1250个楼盘的房价信息,总耗时25分钟,即平均每分钟爬取50个楼盘信息,且突破了目标网站的反爬虫策略,整体爬取速度还是很高效的。不仅如此,该爬虫也被部署到了七台物理机上,稳定性很高,不会因为集群中的某一台物理机挂掉而导致该爬虫服务不可用。最后,通过对数据挖掘领域中常用的两种研究方法,决策树分析方法和KNN分类算法的研究,将房价数据与数据挖掘技术相结合起来。经过数据预处理、分析建模、预测等研究,得出了最终的研究成果。

其他文献

贝律铭的设计思考-苏州博物馆

建筑是我们去运用一定的物质和一些技术手段、科学方法,同时也包括风水和美学法则,运用以上得到的适合人活动的人工空间.贝律铭先生将建筑设计进行升华,与传统、哲学、现代科

期刊

贝律铭现代建筑设计以人为本创作理念

超密集网络中基于分簇的资源分配算法

针对超密集网络(ultra-dense network,UDN)中,严重的小区间干扰制约终端用户的数据速率问题,提出一种基于染色分簇的资源分配方案。该方案采用图论中的染色算法对微蜂窝接入

期刊

超密集网络微蜂窝分簇资源分配ultra-dense network(UDN)femtocellclusteringresource allocation

刺络放血拔罐法治疗轻症阳暑的临床观察

目的:观察刺络放血拔罐法治疗轻症阳暑的临床疗效。方法:随机将轻症阳暑患者120例分为对照组和治疗组,每组60例。对照组口服藿香正气水治疗,必要时给予物理降温,治疗组采用刺

期刊

刺络放血拔罐法阳暑轻症

前言：流体包裹体研究进展

地质流体在地球的地质作用过程中扮演着极其重要的角色,地质流体的性质和演化与地球的演化及矿产资源、能源的形成密切相关,是目前国际地球科学研究最为活跃的领域之一.作为

期刊

流体包裹体专业委员会矿物包裹体地质作用过程地质流体地质学会矿产资源科学研究

地表非均匀加热影响对流边界层湍流特征的大涡模拟研究

本文运用大涡模拟方法研究了地表非均匀加热对边界层湍流特征的影响.共进行五个算例的数值模拟,其中一个算例为地表均匀加热,四个非均匀算例的地表加热方式均采用'马赛克

期刊

对流边界层大涡模拟非均匀尺度湍流有组织湍流涡旋convective boundary layerlarge-eddy simulationhete

小学数学综合实践活动的具体实施策略

<正>小学数学综合实践活动就是让学生学习自主探究,通过在沟通交流以及合作的学习方式中提高自主学习能力的教学方法.探讨在小学数学教学中综合实践活动的运用策略,有助于激

期刊

综合实践活动实施策略

乡村振兴战略背景下西北五省城乡一体化水平评价及对策研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

城乡一体化西北五省乡村振兴评价

再生茄大棚越冬早熟高效栽培技术

茄子再生栽培是利用茄子植株具有萌发新枝再生的特性，通常在夏季将早春茬茄子上部的枝条剪去，让新生的侧枝秋季再次发棵并开花结果。而现在本地种菜能手又将茄子这种再生技术引

期刊

再生栽培高效栽培技术春早熟植株调整

社会心理学视角下的田园女权现象研究

田园女权一词常见于知乎、微博等主流网络媒体之中,一些极端的女权主义者通过各种言论打压男性,认为女性如今获得的权利远远不够,要实现真正的女性独立就必须打压男性固有的

期刊

女性权利群体极化晕轮效应自我服务偏差从众心理

一种基于局部稀疏线性嵌入的降维方法及其应用

局部线性嵌入（LLE）是一种非线性的降维方法.LLE方法采用的近邻邻域大小是全局一致的,而且如果近邻个数过大则可能会把非同一个线性空间的点选作为近邻点.本文对LLE方法进行了改

期刊

局部线性嵌入正交匹配追踪稀疏表示locally linear embedding orthogonal matching pursuit sparse r

基于网络爬虫的北京市房价研究

与本文相关的学术论文