基于机器学习方法的共享住宿价格影响因素与预测

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:feixiang20090911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习涉及多个领域,涵盖了多门学科知识,属于新兴的交叉学科,统计学、概率论等学科构成了其基础架构,其本质就是在此基础之上,在计算机当中运用这些知识来模拟或者进一步实现人类的学习行为。机器学习在近些年随着互联网技术的迅猛发展而广为人知,但其发展历史并不是如想象中那般短暂,其实早在几十年前机器学习就已经存在,甚至可以追溯到几个世纪之前,机器学习的基础架构就已然得到了构筑。像17世纪产生的最小二乘法的推导,以及马尔可夫链等,这些知识的发现使得机器学习能够在今天得到广泛的应用与研究。而在当今的时代背景下,大数据、人工智能等领域飞速发展,使得机器学习的应用前景也愈加广泛,因此本文即以机器学习为手段,来进行短租房价格预测方面的研究。随着经济社会的不断发展,不断进步,越来越多的经济活动以更新颖的方式走进大众生活,社会也需要更加有效的方式来进行资源配置,共享经济应运而生。从共享经济提出一直发展至今,共享一词几乎涉及了社会生活的方方面面,例如出行、住宿、办公、学习等,而共享住宿随着近些年由国外流入国内,逐渐得到发展,也在中国大地上刮起了一股在线短租的风潮,极大地方便了人们的生活、工作。并且由于其个性化的服务,价格的优势,以及更具人性化的特点,日益成为人们出行的首要选择,中国的共享住宿市场也得到了空前的繁荣与发展。本文以共享住宿房屋价格为研究对象,通过获取阿里天池竞赛当中的共享住宿短租数据,以Airbnb平台在北京市的房源信息为例,研究各因素与价格的相关关系,明确各影响因素的影响程度大小,确定要放入预测模型当中的变量。在本文当中,具体的研究工作主要有三部分,如下:第一部分:共享住宿数据的预处理工作。在这一部分当中本文主要是对于所获得数据进行各项预处理,包括数据清洗(异常值、空值的处理),冗余属性的处理、共享住宿数据当中定性数据的数据变换(独热编码、标签编码、标准化与平滑处理),从而为后面的建模工作提供可以直接使用的数据。第二部分:共享住宿数据的描述性分析。在这一部分当中,本文对于所获得数据进行描述性分析,将所有的属性列分为三个部分,第一部分为本文的研究对象,共享住宿房屋的价格;第二部分是共享住宿房屋的身份识别属性列;第三部分是可能对共享住宿价格有影响的影响因素属性列。本文在这一部分当中所做的主要工作,就是分析第三部分各属性列与研究对象共享住宿房屋价格的相关程度大小,从而确定最终放入模型当中的特征变量。第三部分:共享住宿价格预测的算法模型。这一部分是本文的重点研究部分,在这一部分当中,本文一共使用了四种机器学习算法模型,分别为Gradient Boosting(梯度提升)、XGBoost、Random Forest(随机森林)、Bagging 回归,并对四种模型用模型得分以及均方误差进行评价,最终发现表现最好的是Gradient Boosting模型,预测结果也能够达到研究的预期。通过上述研究,本文期待能够找出表现较好的算法模型,来对共享住宿房屋的价格进行预测,这种预测工作将会对消费者的消费决定提供支持,也会对房东的定价工作提供参考,具有十分重要的现实意义。本文创新使用了机器学习算法模型来对房屋价格进行预测,脱离了传统价格预测的线性回归模型,使之具有更好的预测准确度。同时在本文当中,也进一步对共享住宿房屋价格的影响因素做了探讨,通过各种可视化工具,使结果能够更加清晰的展现在读者眼前。
其他文献
在中国,股票市场和债券市场是我国金融市场的两个十分重要的组成部分。经过几十年的不断探索和创新,目前股市和债市都得到了快速的发展。根据东方财富Choice数据显示:截止到2020年末,我国A股的总市值已经达到了 77.5万亿元;根据《2020年债券市场统计分析报告》显示,截止到2020年末,我国的债券市场总托管量达到104.3万亿元,同比增长了 19.38%。当大量的信息和资本在整个金融市场之间相互
学位
当今世界的全球化有两个特征:第一是伴随国际分工不断深化,出现了以多国生产、中间品贸易为特点的全球价值链贸易模式;第二是在WTO全球性贸易谈判受阻的背景下,各国普遍开展的以区域贸易协定RTA为主流的经济一体化合作模式。近年来,全球价值链进入了重塑阶段。起初,这一潜在变化并没有受到学者们的过多关注,直到新冠疫情大流行的到来,国际封锁强烈冲击了各国产业链条,全球价值链重塑这一现象才被推至各国眼前。其次,
学位
结直肠癌患者绝大多数死于复发和远端转移。肝转移是结直肠癌患者最主要的死亡原因之一。TGFBI 蛋白(Transforming growth factor-beta induced protein,TGFBI)是一种细胞外基质蛋白,其异常表达与许多肿瘤的发生发展密切相关。目前,TGFBI在结直肠癌肝转移中的功能尚不清楚。在本研究中,我们发现TGFBI在AOM/DSS诱导的小鼠肠炎相关结直肠癌模型和A
学位
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)是由新型冠状病毒(SARS-CoV-2)感染导致的疾病,临床表征为体温异常、鼻塞、流涕、四肢无力、腹泻、味觉和/或嗅觉丧失等,重症患者可能发展为急性呼吸窘迫综合征甚至死亡。SARS-CoV-2与其他冠状病毒一样,是一种具有外膜包裹的(+)ssRNA病毒,其形状呈近圆形,颗粒直径为50-200 nm,拥有4个结构
学位
近年来,机器学习飞速,作为目前为许多人工智能问题提供解决方法的先进技术,其具体思路为赋予电子计算机像人一样学习知识并处理问题的能力,使机器模仿人类的沟通、交流过程,并在捕捉新的信息或资源的基础上,不断重组升级已具备的知识内容并提高自身性能。作为人工智能的核心,机器学习起源于20世纪初,自从机器学习作为一个相对独立的的研究方向至今,也有40余年的发展历程。在一代代科学家的努力下,机器学习衍生出许多经
学位
跨国企业OFDI是中国推进“走出去”战略与积极参与经济全球化的必然趋势。而合理开展OFDI活动十分重要。当前,伴随着“走出去”战略与“一带一路”倡议的顺利推进,中国OFDI正经历飞速发展的阶段。但OFDI效率却很差强人意。中国对“一带一路”OFDI表现出规模占比偏低,增速放缓,投资与产业布局过度集聚等一系列问题。现有研究虽从制度环境、投资动机等视角对中国OFDI的影响因素进行了大量的研究,但研究多
学位
人巨细胞病毒(Human Cytomegalovirus,HCMV)在全球存在广泛传播,具有严重的危害性。临床研究显示,在免疫受损群体、孕妇和新生儿等特定人群中,HCMV初次感染或再次激活都可能会引起较严重的症状,甚至导致发育障碍和死亡。其中,急性HCMV感染期常伴随患者免疫功能异常,从而诱发靶器官病变,其中较为常见的疾病之一是急性肝炎。目前,对于巨细胞病毒(Cytomegalovirus,CMV
学位
酒精的过量摄入会引起各种酒精性疾病,其中由酒精引起的酒精性肝脏疾病严重威胁着人类健康。在课题组之前的实验中,我们发现在小鼠酒精性脂肪肝诱导模型中,肝组织Periostin蛋白的表达量明显升高。然而,敲除Periostin蛋白后,酒精诱导下肝脏中的脂滴沉积明显加重,肝脏受损亦更加严重。因此,我们推测,Periostin蛋白在酒精肝模型中可能发挥了一定的保护作用。在本课题中,我们进一步检测发现,敲除P
学位
文昌鱼是无脊椎动物向脊椎动物进化的重要过渡类群,其器官构造、胚胎发生及基因组结构与脊椎动物相似,但却简单许多,因此一直被认为是研究脊椎动物起源和进化的理想模型之一。近年来,文昌鱼研究取得了长足的进步,建立了包括室内全年可控繁育、显微注射、基因敲除和转基因等技术方法。然而相较于成熟的模式生物,文昌鱼研究方法仍显得较为单一,比如至今CRISPR/Cas9技术尚未在文昌鱼中建立。此外,文昌鱼目前尚缺乏有
学位
网络购物已经成为现代生活不可或缺的一部分,对于顾客的购物感受研究具有长足意义。其中一个重要研究方向是评论文本研究,对于不同的行业以及不同的商品类型,其评论能带给研究者不同方面的思考与结论。本文的目的是通过文本情感分析,透过三家调味品龙头企业,找寻潜在的行业共性、对比三家企业各自经营优势劣势,管窥调味品行业的顾客感知,从而把握行业的电商平台优势,以及其中存在的普遍问题,建立模型针对大量评论文本,得到
学位