论文部分内容阅读
来自互联网的文本、图像、视频等跨媒体大数据中隐含了丰富的、非结构化的时空信息,它们对于感知旅游环境和游客状态,按需提供个性化服务具有重要意义。为了更好地获取并利用这些时空信息,本文结合旅游时空信息的特点,对跨媒体旅游大数据中时空信息的获取、表达与挖掘进行研究。论文完成的主要工作如下:(1)提出了一种基于地理标签的旅游时空信息获取算法(GT-STA)。构建了时空数据爬取模型,从地理标签中抽取地名、时间、位置等信息,并对数据进行筛选处理,实现了地理标签中旅游时空信息的获取。提出了一种基于地理标记照片的旅游景点多地理特征获取算法(GTP-MFA)。应用Mean Shift聚类算法对复杂景点进行内部划分,并引入用户特征计算地理特征权重值,实现了复杂景点的多地理特征获取。实验结果表明,相比基于命名实体识别筛选的时空信息获取算法(NER-STA)和基于地名数据库的时空信息获取算法(TD-STA),本文提出的GT-STA算法在时空信息获取的准确率指标方面分别平均提升了 54.9%、26.7%;相比基于统计方法的多地理特征获取算法(SM-MFA)和基于Mean Shift聚类的多地理特征获取算法(MS-MFA),本文提出的GTP-MFA算法在旅游景点地理特征获取的准确率指标方面分别平均提升了 20.0%、23.3%,在召回率指标方面分别平均提升了 59.8%、9.9%。(2)提出了一种基于跨媒体信息摘要的时空信息表达算法(CMS-STE)。将旅游景点跨媒体数据中的图像间相似度、文本标签间相似度、图像与文本标签间相似度融合为跨媒体相似度矩阵,使用候选图文质量评分机制提升摘要质量,经近邻传播(AP)聚类获得图文簇集合,从中选取图像摘要和文本标签摘要,最终以跨媒体摘要形式实现了景点时空信息的表达。实验结果表明,相比基于K-means聚类的图文摘要算法和基于AP聚类的图文摘要算法,本文提出的CMS-STE算法在图像查准率指标方面分别平均提升了 27.7%、14.7%,在文本标签查准率指标方面分别平均提升了 16.9%、9.1%;在图像跨媒体相关率指标方面分别平均提升了 40.1%、33.8%,在文本标签跨媒体查全率指标方面分别平均提升了 14.8%、11.0%。(3)提出了 一种基于MapReduce的游客活动模式挖掘算法(MR-TPM)。对地理标签数据进行Mean Shift聚类处理,获得游客兴趣点。进行游客频繁活动模式挖掘,对局部频繁项集剪枝处理以减少节点的负荷,挖掘得到游客在兴趣点间活动轨迹的频繁项集,实现了旅游时空大数据中游客活动模式的并行挖掘。实验结果表明。相比基于K次MapReduce的Apriori并行算法(MRKA)和基于两次MapReduce的Apriori并行算法(MRA),本文提出的MR-TPM算法在运行时间指标方面分别平均降低了 57.1%、35.9%。采用提出的MR-TPM算法挖掘得到了游客在北京市内的频繁活动模式集合。(4)设计并实现了一个跨媒体旅游大数据中时空信息获取、表达与挖掘系统,对本文所提出的基于地理标签的旅游时空信息获取算法、基于地理标记照片的旅游景点多地理特征获取算法、基于跨媒体信息摘要的时空信息表达算法以及基于MapReduce的游客活动模式挖掘算法进行验证。验证结果表明,本文所提出的上述算法能够较好地满足跨媒体旅游大数据中时空信息获取、表达与挖掘的需要,系统具有较好的容错性,能基本满足游客应用需求。