论文部分内容阅读
伴随着移动终端设备价格的下降及Wi-Fi的广泛铺设,移动互联网应用呈现井喷式发展。旅游用户基于移动终端设备,产生了大量旅游评论文本和旅游地标图片信息。这些信息能充分反映各个地标的特色,同时也为面向地标的旅游领域数据挖掘,提供了优良的环境和迫切的科研任务需求。本课题在实验室物联网项目之挖掘系统工作的基础上进行延续,从海量信息中,提取出地标的文本主题意见,并结合图片信息,产生多模态主题意见摘要。此项工作的意义在于方便用户快速准确查询到所需信息,帮助用户进行特色景点选择和旅游计划决策,推动旅游业的蓬勃发展,促进信息消费,保持经济增长。本文以北京市的热门旅游地标数据为对象,展开多模态主题意见摘要挖掘研究。首先,本文设计“爬虫”软件,从旅游网站获取评论和游记,通过信息熵指标等进行信息筛选,保留有价值的文本和图片信息,完成了地标的数据收集和预处理工作;其次,本文在预处理工作基础上,开展文本挖掘研究工作,生成了地标的文本主题意见。针对地标的评论信息,本文创新地提出一种增量式学习算法框架,依据区分性和内聚性两个指标,同步挖掘各地标的主题和用户对各主题的重要评价意见,实验表明该算法框架能有效的提取地标的主题意见特征词,反映地标特色,其准确率相比其他方法提高19%左右,达到国内先进水平;再者,针对图片,本文选择提取5种图像特征,采用谱聚类算法和AP算法,获得图片聚类主题和各主题的代表性图片,实验表明聚类效果良好,所选图片的主题代表性强;最后,本文综合文本和图片两种模态信息,将图片按主题映射到文本主题意见上,形成多模态摘要,实验表明该摘要可读性强,形式新颖,信息丰富。经实际验证,本文最终生成的包含文本主题意见和代表性图片的多模态摘要,形象生动,特色鲜明,直观有效地为用户提供了地标的关键信息,大量节省用户查询时间,得到了用户的充分好评。