面向图文游记的多模态学习

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Ivy1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,中国旅游市场取得了巨大的发展,随着数据分享的兴起、智慧旅游概念的提出,利用人工智能协助在线旅游网站的进一步完善成为业界广泛关注的重点。目前大多数在线旅游网站上都会为用户提供丰富多彩的图文游记。然而,在线旅游网站的景区相关游记却存在或多或少的问题。首先,对于一些在线旅游网站,有大量的旅游相册在游记描述上非常空乏。其次,相当一部分游记没有可视化的图集。最后,大部分的在线旅游网站的景点存在着冗余的图集与游记。针对在线旅游网站存在的以上问题,本文进行了相关研究的调研,比较了看图说话与视觉故事等图文多模态学习任务,提出了利用深度学习的多模态视觉故事模型来解决该问题。算法上,本文针对传统视觉故事模型潜在的问题,提出了三种改进模型,使用同样卷积神经网络作为图像特征的输入模型,同样语言模型作为文本特征的输入模型,利用双向长短期记忆网络作为模态转换模型构造长记忆视觉故事模型。并进一步在长记忆视觉故事模型的基础上,引进注意力机制构造注意力视觉故事模型,在长记忆视觉故事模型的基础上,引入对抗训练机制构造对抗视觉故事模型,通过中英数据集上广泛实验验证了这三个模型的有效性,对抗视觉故事模型在视觉故事任务中取得了最好的效果。本文创新性地引入注意力机制与对抗机制,构造了针对视觉故事任务新的学习范例,说明不仅在机器翻译方面与图像生成方面这些机制的有效性,同时在多模态视觉故事模型中也有巨大的潜力。工程上,本文利用三种改进模型,在面向图文游记写作应用上,构建了图文游记生成系统,并针对算法与效率做了一系列优化,将系统分为离线视觉故事训练系统与在线图文游记写作系统,可以利用该系统完成游记写作、筛选游记等应用。
其他文献
通过对创新理论、技术创新经济学、经济增长理论、交易成本理论、博弈论、知识共享的内涵与特征、主体协同交互作用机理及技术知识流动与传递的含义、特征和机理分析,结合对产
随着科学技术的不断发展,目前,市场上流行的计算机杀毒软件类型也比较多。不同的杀毒软件,各自所擅长的领域也不同,文章对杀毒软件的计算机网络杀毒机理进行了研究。 With t
目的探讨小儿先天性心脏病体外循环术后发生毛细血管渗漏综合征(CLS)的相关危险因素。方法回顾性分析2008年1~6月的375例先天性心脏病体外循环术后患儿的临床资料,对可能引起CLS
随着智能电网的发展,传统的设备管理运行模式已不能满足电力公司和用户对系统经济性和可靠性的双重需求。电力设备检修和备用分析是电力系统设备管理运行的重要方面,其根本目