论文部分内容阅读
众源地理数据是近几年在地理信息科学领域中出现的新概念。其是由众源的理念与传统地理数据相结合所产生和发展的,由大量非专业人员志愿获取并通过互联网向大众提供的一种开放式地理空间数据。其数据量大、信息丰富、成本低廉以及现势性强的特点,使其相比于传统地理数据有很大的优势,从而蕴含着更大的发展潜力和应用价值。随着互联网和智能信息技术的飞速发展,去哪儿网、蚂蜂窝以及携程网等越来越多的旅游门户网站允许游客在线记录并分享自己的旅游路线,进而在互联网上产生蕴含大量游客出游路线信息的在线旅游路线数据。在线旅游路线数据是众源地理数据的一种,其中包含旅游路线的出游时间、出游时长、游览的旅游景点及类型等信息,能够体现游客在旅游过程中的行为模式、出游偏好以及旅游景点流行度等,可以有效地应用于智能化旅游路线推荐领域。基于众源地理数据的热门旅游路线推荐能够在海量的在线旅游路线数据中挖掘出频繁出现且游客兴趣度以及景点流行度均较高的景点序列组合,为旅游路线推荐的过程提供指导和参考建议,很大程度上提高旅游路线推荐的合理性和经济性,减少不必要的开销和旅途劳顿。本文基于在线旅游路线数据这种众源地理数据,以香港特别行政区为例,从理论研究和实际应用出发,对热门旅游路线推荐的方法和具体流程进行深入的研究,研究方法集中在以下三个方面:1)采集进行热门旅游路线推荐所需要的在线旅游路线数据并进行数据处理以及数据质量验证。首先,确定以香港特别行政区作为本文的研究区域。接着,对比分析了各主流旅游门户网站中在线旅游路线数据的数量以及包含的旅游信息内容,选择了数据数量与内容都符合本文要求的去哪儿网作为本文的数据来源。再者,详述了利用基于Python以及Beautiful Soup插件的网络爬虫技术爬取在线旅游路线数据的采集、预处理流程以及数据地理信息化流程,为后续章节的数据分析、挖掘以及可视化起到了支撑作用。最后,通过利用由香港旅游发展局公布的国内旅客访港人次数据与所采集的在线旅游路线数据进行对比统计分析以及相关程度系数检验,验证了所采集数据的质量。通过以上方法,采集了香港特别行政区旅游相关POI数据共25359条,并在此基础采集香港在线旅游路线。截至2017年9月,共采集了完整旅游路线10004条,每一天的详细旅游路线32308条,空间范围覆盖整个香港特别行政区以及部分周边城市。2)利用采集的去哪儿网在线旅游路线数据进行热门旅游路线推荐算法的研究。首先,运用旅游路线标签化算法以及基于标签的剪枝算法对在线旅游路线数据进行筛选,并利用基于Apriori的频繁序列模式挖掘算法挖掘在线旅游路线数据中的频繁景点序列。接着,通过基于用户的协同过滤算法挖掘出与游客要求相似度高的旅游路线,并设计一种综合考虑景点类别属性、游客偏好以及路线流行度三方面因素的路线收益计算方法,计算频繁序列项的综合收益并对其进行Top-N推荐,为游客提供热门的旅游路线推荐服务。最后,利用准确率、召回率以及F-Measure三项指标对热门旅游路线推荐算法的推荐效果以及质量进行评价。3)设计、开发并实现了基于众源地理数据的热门旅游路线推荐及可视化平台。通过该可视化平台,游客可以根据自己的旅游偏好、旅游时间及时长等影响因素进行个性化的热门旅游路线推荐及Top-N输出。为了便于游客对旅游路线推荐结果进行更清晰的了解,本平台采用文本与地图可视化两种形式对热门旅游线路进行可视化输出。