论文部分内容阅读
Airbnb作为世界范围内最大的C2C短住房在线预订平台具有海量房源和庞大的消费群体,其内部庞大的流量也代表着极高的商业价值,成为各类闲置资源共享人员及投资商进行资源共享、创造收入的重要阵地,如何利用其中的房源数据对在线住宿平台提供管理决策的依据成为企业关注的重点。本文利用Airbnb平台上的短住房房源数据构建房源画像,可以对房源数据进行挖掘和分析,将房源表达成一类多维的标签系统,帮助企业精准定位房源特征,是改进房源产品和房源推荐的基础,对住宿预订平台及房源供给方都具有很高的参考意义。在这一背景下,本文研究了基于主题模型的Airbnb短住房房源画像的构建及分析,目的是精确描述房源特征,并将其进行类别细分及描述分析。使用的Airbnb房源数据包括房源的基础属性数据及动态的房源评论数据,由于基础属性数据均为房源供给方填写,因而数据的处理重点在于房源评论。本文的主要工作如下:(1)针对获取到的房源评论数据进行预处理。将所有房源按照人均价位划分为经济型、品质型和高档型,在房源评论文本的预处理过程中去除无用词后使用了效果较好的Jieba分词器,并进行了词性筛选及停用词处理。(2)使用主题模型进行房源评论的特征提取。选取了经典的LDA模型及考虑时间的DTM模型进行特征工程,分别提取房源主题,选取定量的评价指标进行评价,评价结果显示DTM模型对房源主题的特征提取的效果较好。(3)将考虑语义信息的Word2vec模型与DTM模型结合构建DTM2vec模型,在房源评论维数不变的情况下,更好地描述房源特征。(4)采用Canopy和K-means聚类算法,避免噪声值对聚类效果的影响,采用合适的评价指标比较DTM2vec模型与DTM模型的特征提取效果。(5)采用最优聚类结果的参数设置进行房源画像的聚类生成。将经济型房源细分为5类、品质型房源细分为4类、高档型房源细分为5类,并进行归纳描述。本文得到的结论为:(1)对于房源评论数据,考虑时间因素的DTM模型相较于LDA模型具有更好的主题提取效果;(2)融合上下文语义信息的DTM2vec模型对于房源特征有更好的描述性,聚类效果较DTM模型更优;(3)Canopy融合K-means的聚类算法能够识别出价格噪音房源,防止其对聚类效果造成干扰,得到的聚类效果较好,使得聚类结果具有描述性,能够归纳识别出不同类别的房源画像,为房源的管理及发展提供一定的参考。