论文部分内容阅读
近年来,中国旅游市场取得了巨大的发展,随着数据分享的兴起、智慧旅游概念的提出,利用人工智能协助在线旅游网站的进一步完善成为业界广泛关注的重点。目前大多数在线旅游网站上都会为用户提供丰富多彩的图文游记。然而,在线旅游网站的景区相关游记却存在或多或少的问题。首先,对于一些在线旅游网站,有大量的旅游相册在游记描述上非常空乏。其次,相当一部分游记没有可视化的图集。最后,大部分的在线旅游网站的景点存在着冗余的图集与游记。针对在线旅游网站存在的以上问题,本文进行了相关研究的调研,比较了看图说话与视觉故事等图文多模态学习任务,提出了利用深度学习的多模态视觉故事模型来解决该问题。算法上,本文针对传统视觉故事模型潜在的问题,提出了三种改进模型,使用同样卷积神经网络作为图像特征的输入模型,同样语言模型作为文本特征的输入模型,利用双向长短期记忆网络作为模态转换模型构造长记忆视觉故事模型。并进一步在长记忆视觉故事模型的基础上,引进注意力机制构造注意力视觉故事模型,在长记忆视觉故事模型的基础上,引入对抗训练机制构造对抗视觉故事模型,通过中英数据集上广泛实验验证了这三个模型的有效性,对抗视觉故事模型在视觉故事任务中取得了最好的效果。本文创新性地引入注意力机制与对抗机制,构造了针对视觉故事任务新的学习范例,说明不仅在机器翻译方面与图像生成方面这些机制的有效性,同时在多模态视觉故事模型中也有巨大的潜力。工程上,本文利用三种改进模型,在面向图文游记写作应用上,构建了图文游记生成系统,并针对算法与效率做了一系列优化,将系统分为离线视觉故事训练系统与在线图文游记写作系统,可以利用该系统完成游记写作、筛选游记等应用。