论文部分内容阅读
伴随着Web 2.0的发展及普及、多媒体分享网站的兴起、以及具备GPS定位功能的电子设备普及,人们可以通过使用带GPS定位功能的电子设备获取具有地理位置和拍摄时间信息的相片,并对这些相片进行标注共享到类似Panoramio等网络相册上。那么,从这些具有地理位置和拍摄时间信息的相片中可以挖掘出潜在的旅游信息:(1)根据旅游用户共享的相片信息可以挖掘出感兴趣的景点;(2)把某一旅游用户在某段时间内上传的相片在电子地图上进行标注,可以还原其旅行轨迹,并根据共享用户的旅行经验制定感兴趣的、高效的旅行计划。也就是说从这些带有地理位置和时间信息的相片集合中挖掘出旅游信息以为旅游用户进行推荐。这些信息都是大众自愿提供的,一定程度上反映了人们对旅游地的认知和旅游行为特征,它们不同于一般的文本,大部分具有空间信息,这就是自发地理信息(Volunteered Geographic Information,简称VGI)。本文研究基于自发地理信息的旅游信息挖掘与推荐的问题,并通过构建一个以操作系统为Android的移动手机的交互式的旅游信息推荐系统,使旅游用户可以与系统进行交互,从而为其外出旅行作决定提供依据。本文研究的工作内容及创新点具体如下:(1)提出了时空数据模型对相片集合进行组织与管理的方法。选取具有VGI模式的网络相册Panoramio作为本文的数据来源,Panoramio是一个基于虚拟地球Google Earth的社会化地理相片分享网站,允许用户上传相片并能显示在虚拟地球Google Earth上,让分享者清晰的看到自己分享的相片的地理位置。本文首先在Google Earth上把研究区域内所有相片信息保存到KML格式的文件中,解析KML文件获取相片ID并将整合成Panoramio网址,然后采用一款网络数据采集软件—火车采集器,按照一定的采集规则,从而采集到相片的标题、相片ID、分享者、地理坐标、拍摄时间、描述信息等。由于这些相片具有地理位置属性与时间属性的特点,正好符合时空数据模型的特点,本文通过建立时空数据库对这些相片属性数据进行组织与管理。(2)提出了采用空间聚类方法从大量的相片集合中挖掘热门旅游景点的方法。为解决从大量带有地理位置和拍摄时间信息的相片集合中挖掘出代表性的感兴趣景点(热门旅游景点),在比较k-means聚类算法和DBSCAN聚类算法两者之间的优缺点的基础上,结合数据来源的特点,本文采用了DBSCAN聚类算法并对其进行改进,以从大众在网络相册上共享的带有地理坐标和拍摄时间信息的相片中挖掘出某一地区具有代表性的旅游景点并对其命名,如风景名胜、公园、广场等。(3)提出了一种新的路线联合算法从众多的感兴趣景点中挖掘出潜在的旅行路线。通过这些带有地理位置和拍摄时间信息的相片集合虽然可以很好地还原旅游用户过去的旅行路线,但由于旅游用户在旅行的过程中相片的拍摄并不是每时每刻都在进行,或是旅途的过程中是有选择性的进行拍摄,他们拍摄的相片是随机的,这就会存在无法获得一个旅游用户完全的旅行路线的问题,所以针对这些不完全的旅游路线,本文提出一种新的路线联合算法(Path Union Algorithm)法从众多的旅游路线中补充,以还原旅游用户的真实旅行路线;以及针对如何从众多的相片轨迹中检索出合适的候选路线,使用了KNN轨迹检索算法的方法从中检索出候选路线。(4)构建了一个基于Android的交互式移动旅游信息推荐系统。为了达到更好的用户体验效果,构建了一个以操作系统为Android的移动手机的交互式的旅游信息推荐系统,方便用户与系统进行交互,可视化查看从具有地理位置和拍摄时间信息的相片集合中挖掘出的旅游信息(热门旅游景点和旅行路线),以及旅游景点和旅行路线上相关的信息。在此基础上,用户可以通过输入旅行时间、旅行偏好、访问景点等信息定制个性化的旅行路线,从而为旅游用户外出旅行作决定提供依据。本文采用VGI作为数据源开辟了新的数据获取方式,是VGI数据在旅游信息挖掘与推荐中的一种新尝试,相比传统的方式更易操作、更具实时性、更能体现出旅游用户对旅游地有更真实的表达。在已有的研究中,国内外学者利用GPS轨迹数据从中挖掘信息,但通常情况下用户为保护自己的隐私而不愿意分享自己的GPS轨迹数据。所以,本文从带有地理位置和拍摄时间信息的相片集合入手,从中挖掘旅游信息并推荐给旅游用户。