基于网络爬虫的北京市房价研究

来源 :长江大学 | 被引量 : 3次 | 上传用户:tmsyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息革命的到来,互联网的蓬勃发展,生活方式的改变,网络成为了我们日常生活的必需品。面对大量的网络资源,学会合理地使用搜索引擎则可以给我们带来很多方便。在搜索引擎中,我们利用一些关键字进行搜索,它就会返回给我们大量的跟这个关键字相关的信息,在这个过程中,不得不提的就是爬虫技术了。搜索引擎就是充分地运用了爬虫技术才得以从海量的信息网络中抓取到与之关联的信息,并快速地响应给我们。但是随着数据时代的到来,网络信息浩如烟海,随着技术的更迭,反爬虫也越来越得到重视与加强,从中提取出我们需要的信息也变得越来越困难了。另外,房价现在是我们生活中最热门的词汇之一,它与我们每一个人都息息相关。因此,房价的数据也是很值得做一番研究的,将计算机网络爬虫技术运用到房价中,则正是本文研究的内容之一。首先,我们需要一些房价的数据。在此之前,我们需要确定房价数据的来源,即目标网站。对比分析了几个著名的房产信息网站,最后确定了以“安居客”为爬取对象。然后,就是如何抓取房价数据了,这方面的工作可以通过计算机爬虫技术来完成。针对爬虫本身,本文中我运用了一款新型的网络爬虫框架,名叫elastic-spider,这是一款基于java语言开发的分布式爬虫框架。这也是本文的重点研究内容之一。现阶段,使用得比较广泛的网络爬虫框架有Nutch、Scrapy、Crawler4j等,但是它们都存在一些缺陷,Nutch定制爬取能力很弱,且集群中数量如果太少的话,爬取效率很低;Scrapy抓取速度较慢;Crawler4j不支持动态网页的抓取,即对AJAX的请求不支持。而elastic-spider网络爬虫框架则能很好地解决上述几个问题,它主要有三大优点。第一、该框架是异步的,因此执行效率非常高;第二、该框架支持分布式爬取,不会因为集群中的单节点挂掉,导致整个服务不可用;第三、该框架可扩展性极强,下载、解析,存贮等模块均支持由开发者自由扩展。本次研究所实现的网络爬虫程序正是基于elastic-spider爬虫框架实现的。该爬虫共计爬取了北京市1250个楼盘的房价信息,总耗时25分钟,即平均每分钟爬取50个楼盘信息,且突破了目标网站的反爬虫策略,整体爬取速度还是很高效的。不仅如此,该爬虫也被部署到了七台物理机上,稳定性很高,不会因为集群中的某一台物理机挂掉而导致该爬虫服务不可用。最后,通过对数据挖掘领域中常用的两种研究方法,决策树分析方法和KNN分类算法的研究,将房价数据与数据挖掘技术相结合起来。经过数据预处理、分析建模、预测等研究,得出了最终的研究成果。
其他文献
建筑是我们去运用一定的物质和一些技术手段、科学方法,同时也包括风水和美学法则,运用以上得到的适合人活动的人工空间.贝律铭先生将建筑设计进行升华,与传统、哲学、现代科
针对超密集网络(ultra-dense network,UDN)中,严重的小区间干扰制约终端用户的数据速率问题,提出一种基于染色分簇的资源分配方案。该方案采用图论中的染色算法对微蜂窝接入
目的:观察刺络放血拔罐法治疗轻症阳暑的临床疗效。方法:随机将轻症阳暑患者120例分为对照组和治疗组,每组60例。对照组口服藿香正气水治疗,必要时给予物理降温,治疗组采用刺
地质流体在地球的地质作用过程中扮演着极其重要的角色,地质流体的性质和演化与地球的演化及矿产资源、能源的形成密切相关,是目前国际地球科学研究最为活跃的领域之一.作为
本文运用大涡模拟方法研究了地表非均匀加热对边界层湍流特征的影响.共进行五个算例的数值模拟,其中一个算例为地表均匀加热,四个非均匀算例的地表加热方式均采用'马赛克
<正>小学数学综合实践活动就是让学生学习自主探究,通过在沟通交流以及合作的学习方式中提高自主学习能力的教学方法.探讨在小学数学教学中综合实践活动的运用策略,有助于激
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
茄子再生栽培是利用茄子植株具有萌发新枝再生的特性,通常在夏季将早春茬茄子上部的枝条剪去,让新生的侧枝秋季再次发棵并开花结果。而现在本地种菜能手又将茄子这种再生技术引
田园女权一词常见于知乎、微博等主流网络媒体之中,一些极端的女权主义者通过各种言论打压男性,认为女性如今获得的权利远远不够,要实现真正的女性独立就必须打压男性固有的
局部线性嵌入(LLE)是一种非线性的降维方法.LLE方法采用的近邻邻域大小是全局一致的,而且如果近邻个数过大则可能会把非同一个线性空间的点选作为近邻点.本文对LLE方法进行了改