论文部分内容阅读
旅游景点的精准推荐有利于提升用户出行的效率与旅游体验。然而,旅游特征因子的选择与推荐算法的不同都会影响景点推荐的准确性。针对现有旅游推荐研究中存在数据稀疏、旅游因子不足、推荐准确率不高等问题,本文利用微博数据的个性化表达、现势性强等特性以及机器学习的智能化预测作用,提出了基于微博数据与机器学习的景点推荐方法,实现了精准化、个性化的旅游景点推荐。论文的主要工作及成果体现在:(1)微博数据具有数据量大、语义丰富、表达用户真实思想、易获取等特点,可以缓解传统的利用旅游网站数据进行旅游推荐的数据稀疏性问题。因此,本文首先利用Python爬虫获取了与景点相关的新浪微博数据,并对获取的数据进行分类与清洗,以用于旅游景点的推荐研究。(2)其次,本文提取了丰富的旅游特征因子。典型的旅游推荐算法从景点、游客等方面选择旅游特征因子,未考虑游客到访目的地的通行时长、旅游季节等上下文信息,而它们可以从不同角度帮助了解用户的旅游偏好。本文从旅游景点角度利用核密度估计等方法提取了景点位置、景点票价、景点级别、主类、亚类、基本类型六个特征因子;从游客角度利用统计分析等方法提取了性别、年龄、年龄段、客源地四个特征因子;从上下文感知信息角度利用地理集中指数等方法提取了通行时长、季节、月份三个特征因子。基于此建立了丰富的旅游特征因子库,并将多元特征进行组合,为可靠预测提供支撑。(3)再次,针对协同过滤推荐算法的数据稀疏、冷启动问题,本文引入机器学习算法,并结合已提出的多特征旅游因子来构建动态的景点预测(随机森林偏好景点预测(Random Forest Preferred Attraction Prediction,RFPAP)和神经网络偏好景点预测(Neural Networks Preferred Attraction Prediction,NNPAP))模型。实验结果表明,RFPAP和NNPAP方法能够克服数据稀疏性问题,分别取得了89.61%和89.51%的准确率,且RFPAP方法优于NNPAP方法,具有更强的泛化能力。(4)然后,本文采用FP-Growth算法构建景点关联(FP景点关联(FP-Growth Attraction Association,FP-Growth AA))模型。利用该模型可以高效地挖掘微博数据中景点之间的关联规则。实验结果表明,通过挖掘游客选择的景点之间的关联关系,可为旅游出行决策提供有效信息。(5)最后,提出了一种融合RFPAP与FP-Growth AA模型的旅游景点推荐方法,不仅可以预测游客偏好景点,而且可以挖掘出与偏好景点关联性强的景点集,并依据置信度排序推荐给目标游客,有效提高了景点的个性化推荐精度,具有很强的泛化能力。