基于主题模型的Airbnb短住房房源画像分析

来源 :山西财经大学 | 被引量 : 1次 | 上传用户:guofy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Airbnb作为世界范围内最大的C2C短住房在线预订平台具有海量房源和庞大的消费群体,其内部庞大的流量也代表着极高的商业价值,成为各类闲置资源共享人员及投资商进行资源共享、创造收入的重要阵地,如何利用其中的房源数据对在线住宿平台提供管理决策的依据成为企业关注的重点。本文利用Airbnb平台上的短住房房源数据构建房源画像,可以对房源数据进行挖掘和分析,将房源表达成一类多维的标签系统,帮助企业精准定位房源特征,是改进房源产品和房源推荐的基础,对住宿预订平台及房源供给方都具有很高的参考意义。在这一背景下,本文研究了基于主题模型的Airbnb短住房房源画像的构建及分析,目的是精确描述房源特征,并将其进行类别细分及描述分析。使用的Airbnb房源数据包括房源的基础属性数据及动态的房源评论数据,由于基础属性数据均为房源供给方填写,因而数据的处理重点在于房源评论。本文的主要工作如下:(1)针对获取到的房源评论数据进行预处理。将所有房源按照人均价位划分为经济型、品质型和高档型,在房源评论文本的预处理过程中去除无用词后使用了效果较好的Jieba分词器,并进行了词性筛选及停用词处理。(2)使用主题模型进行房源评论的特征提取。选取了经典的LDA模型及考虑时间的DTM模型进行特征工程,分别提取房源主题,选取定量的评价指标进行评价,评价结果显示DTM模型对房源主题的特征提取的效果较好。(3)将考虑语义信息的Word2vec模型与DTM模型结合构建DTM2vec模型,在房源评论维数不变的情况下,更好地描述房源特征。(4)采用Canopy和K-means聚类算法,避免噪声值对聚类效果的影响,采用合适的评价指标比较DTM2vec模型与DTM模型的特征提取效果。(5)采用最优聚类结果的参数设置进行房源画像的聚类生成。将经济型房源细分为5类、品质型房源细分为4类、高档型房源细分为5类,并进行归纳描述。本文得到的结论为:(1)对于房源评论数据,考虑时间因素的DTM模型相较于LDA模型具有更好的主题提取效果;(2)融合上下文语义信息的DTM2vec模型对于房源特征有更好的描述性,聚类效果较DTM模型更优;(3)Canopy融合K-means的聚类算法能够识别出价格噪音房源,防止其对聚类效果造成干扰,得到的聚类效果较好,使得聚类结果具有描述性,能够归纳识别出不同类别的房源画像,为房源的管理及发展提供一定的参考。
其他文献
目的研究不同印戒细胞癌成分对结直肠癌患者预后的影响,为不同印戒细胞癌成分结直肠癌患者建立个体化的列线图预测模型。方法回顾性分析2010年1月至2018年9月于福建医科大学
未来课堂是一种基于建构主义下互动性强、包含众多先进信息技术的学习环境,若初中生物探究式教学在课堂中开展进行,需要紧紧围绕学生的探究活动进行,将各种技术元素以及探究
<正>一、认清形势,统一思想,增强做好执法监察工作的责任感近年来,在中央、国土资源部和省委、省政府的高度重视和正确领导下,经过全省各级国土资源部门的共同努力,我省国土
现阶段,在我国的各个领域当中,对于电气工程以及自动化技术获得了很好的应用,但是,随着当前社会经济的不断提升,电气工程的水平以及自动化发展还很难有效的满足要求,这就需要
两种法定基源黄芪分为蒙古黄芪Radix Astragali membranaceus(Fisch.)Bge.var.mongholicus(Bge.)Hsiao polysaccharides(AOP)和膜荚黄芪Radix Astragali membranaceus(Fisch.
知识女性作为有一定社会地位的职业群体,其休闲活动也越来越受到人们的关注.知识女性的休闲文化结构可从其休闲的文化层次及空间结构两方面来研究.休闲对知识女性的生存和发
档案教育是档案相关各项事业的根本,文章列举了我国与国外档案教育的不同点和相同点,并进一步具体地对国外和我国的档案教育的研究进行了对比分析,指出了我国档案教育的发展现状
本论文以药用植物远志(Polygala tenuifolia Willd)、骆驼刺(Alhagi pseudalhagi Desv)为研究对象,从中纯化并鉴定出8个精多糖。远志根经过水提醇沉与碱提醇沉,得到4个部位的
本文从界定权力、学术权力及行政权力等概念入手,通过考察我国公立高校内部权力结构的历史发展,初步厘清了自我国现代大学出现以来高校内部的权力关系和权力主体的大致存在样
MicroRNA(miRNA)是一类长约22个核苷酸的非编码小RNA分子,主要通过与Ago蛋白家族和其它分子组成RISC复合体,结合到靶mRNA的3’ UTR区域,抑制靶基因翻译或导致mRNA降解。现有研