基于Spark MLlib的房屋估价系统

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ciyoyo23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今信息时代,数据的爆炸式增长和隐藏在这些海量数据背后巨大的商业价值催生出众多的大数据处理技术,除了广为人们熟知的Hadoop,近几年又先后发展出了以Storm、Spark、Flink等为代表的新兴计算框架,其中以Spark最受人们关注,它开发简单,运行速度快,并且同时兼顾了批处理以及实时数据计算,非常适合应用于与机器学习算法结合的场景。大数据处理技术的出现打破了传统并行计算的局限,为人们在信息爆炸时代解决海量数据问题提供了一个有效的新思路。本文主要探索一种基于Spark大数据平台针对二手房进行估价的应用系统。这是对现实人们关注热点问题的研究,同时又是对大数据背景下的机器学习算法的研究。针对信息时代二手房估价现存的问题,结合大数据和机器学习的特性以及房地产估价的特点,本文在二手房价格评估模型中引入了大数据处理架构中的机器学习算法。首先利用网页爬虫工具抓取二手房信息服务网站上的海量成交信息,提取特征并建立指标体系和量化标准,构建基于支持向量机、随机森林以及神经网络的二手房估价系统,使用选定的多种机器学习算法进行模型训练,将几种算法产生的预测结果对比分析,并对预测结果进行整合,最后利用测试数据评估模型预测效果。针对可以获取到的海量数据,将房屋估价系统推广到Spark平台。实验结果表明该估价模型预测误差小、提升空间大、运算速度快、并行度和稳定性高,可以应用到二手房估价中。
其他文献
本文的目的是在纽马克翻译理论的指导下对《黄帝内经》的两个英译本进行对比研究。纽马克认为有两种翻译方法:语义翻译和交际翻译,应根据不同语言特色、词汇-语法层面的特点(
从中日比较文学的视角出发,采用平行研究的方法,对《雨月物语》和《聊斋志异》的主要内容进行了再分类,在此基础上归纳、概括了二者怪奇世界的相同点与不同点,进而分析了这两
古村落是我国数千年农耕文化的结晶,具有悠久的历史和深厚的文化底蕴。古村落文化是中华民族文化的绚烂瑰宝,具有丰富且多元的教育价值。随着三级课程管理制度的设立,古村落
雷蒙德·卡佛在短篇小说上的造诣令他不但成为新现实主义时期美国小说的核心人物,更令他成为在美国文学价值的重要符号。这些短篇小说引起了大量文学批评的关注,而本文将通过
目的:探讨E2F-1和Rb基因在肺癌中的表达及意义。方法:用免疫组织化学技术对广州医学院第二附属医院、广州市胸科医院自2001年1月至2004年12月手术诊断的60例原发性肺癌组织与
目的:设计、合成大分子前药果胶-阿霉素偶合物(pectin-doxorubicin conjugates,PDC),并自组装制备及表征果胶-阿霉素纳米胶束体系(PDC-M),研究其体内外缓控释作用、毒性、生
本文依据公共治理理论,分析了政府管理职业教育的职能,指出,改革传统的政府治理方式,转变政府职能,建立公共财政体制,加大政府对职业教育的财政支持力度;完善教育法律体系,依
在深入分析收益还原率内涵和计算方法的基础上,以宁波市为例,进行了收益还原率的区位差异修正、租售比修正及用途差异修正测算,为收益还原法的科学应用提供实证研究依据。
研究声光效应光栅理论,分析动量匹配与衍射效率关系,探讨相干光平衡探测的噪声抑制机理,进行了系统设计和相关实验测试,验证基于声光效应的相干平衡探测系统光学降噪方法的技
目的:探讨酶联免疫法检测粪便标本幽门螺杆菌抗原(HpSA)诊断儿童Hp感染的应用价值。方法:采用双抗体夹心酶联免疫吸附测定(ELISA)检测2005年1月至2006年1月门诊、住院的86例