基于改进GPT-2模型的童话故事文本生成研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:rzptxjgl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着二胎政策的实施,我国新生儿的数量正在逐年增加,对于幼儿的教育也日益重视。而现在,我国市场上的童话故事过于老套,且缺乏定制性,数量也并不足以满足现在日益增长的需求。另一方面,随着深度学习领域的高速发展,其所包含的很多领域都有巨大突破,如计算机视觉、自然语言处理与实时决策等;但是随着模型的不断发展,如何将各个纵向发展的领域结合,让模型真正解决现实问题、体现价值也是一个十分重要的问题。所以本文试图结合最新深度学习的模型从而实现从卡通图片生成童话故事,为学龄前儿童提供更丰富的语料。本文构建了一个端到端的、可以从卡通图片生成童话故事的系统,结合图像描述模型与语言模型,并利用集束搜索算法改进。系统主要分为三个模块,分别是图像描述模块、连接模块以及文本生成模块。在图像生成模块,利用全新的编码器-解码器架构,实现从一张图片生成关于该图片的短文本描述;在连接模块,主要利用集束搜索算法对模块一输出部分以及模块三的输入端进行改进,将更多的图像信息融入文本中;在文本生成模块,改进了最新的语言模型GPT-2,用于生成长文本(童话故事)。在模型评估方面,首先对图像描述模块进行了机器翻译指标BLEU的评估,本文架构在同等训练时长的情况下优于传统架构的结果;其次对长文本进行评估,说明生成的文本上佳;最后提出了一种新的评估此类问题的指标,综合了文本相关性、长距离依赖度以及语句通顺程度因素,又通过实验证明这种指标可以有效的对从图像生成长文本问题进行评估。本文的创新点在于构建了一种实用、有现实价值的深度学习系统;在系统内部提出利用Dense Net卷积神经网络与改进的字符级循环神经网络作为编码器与解码器处理图像描述任务;利用集束搜索算法有机融合图像描述模型与语言模型;并且构建了一个指标有效评估此类问题,填补了长文本图像描述问题评估的空缺。
其他文献
今年是中国与东盟建立对话关系20周年,也是"中国-东盟友好交流年"。1月11日,东盟十国联合授予中国-东盟商务理事会中方常务副秘书长许宁宁"中国-东盟合作突出贡献奖"。日前,记者
腾讯公司最近为广大网友推出一项新的“互动状态服务”,利用该项服务就可以将自己QQ的在线状态发布到网站或者论坛上,而且网友直接点击该图标就可以和你聊天了。下面我们就来
提出了一种基于均匀圆阵双基地MIMO雷达多目标多维角度估计的新算法。对阵列接收信号进行分析,表明其具有平行因子三线性模型特征,利用该模型低秩分解的唯一性条件,从分解得到的
几年前,由携程、艺龙等引发的旅游电子商务融资热潮至今令人记忆犹新,而两者挂牌纳斯达克后产生的财富效应更传为一时佳话。多年后的今天,风险投资在辗转网游、经济型酒店、新能
提出了一种基于排序的直接在JPEG码流中嵌入水印的算法,该方法在保证嵌完水印后图像无失真的条件下提高了嵌入容量。根据对JPEG图像中可变长度码使用情况的统计分析,通过将一幅
自从涉足政坛,苏震西的人生舞台就从墨尔本的唐人街走向了中国。在他担任墨尔本市市长的8年时间里,几乎每年他的身影都会出现在中国大陆,正是他让墨尔本市和天津市成为了姊妹城
企业社会责任,并不等同于捐款。  正像健康教育投资管理中心有限公司董事长金岩所说:“某些企业靠一些不正当的手段赚取利润,赚取10亿利润所造成的环境代价,也许200个亿都弥补不了。现在它拿出10亿利润中的1亿来捐助,你说它体现了什么企业社会责任?”  有越来越多的企业家开始意识到这点。所以,陈光标发展循环经济,李楚源致力于过期药品的回收,梁昭贤所在的格兰仕不限品牌地进行“绿色回收”,他们不仅是注重自
从网上下载的文档很多是RAR压缩包,对于这些压缩 文件,我们可以让FlashGet在下载完毕后自动打开,并把 压缩包中的文件解压至指定文件夹中,从而省去了手工解压 的麻烦。 在Fla
在IE中输入网址的时候,开头字母相同的网址一般 情况下会显示在地址栏的下拉菜单中,虽然这样方便我们 查找,但是还必须通过鼠标或者键盘上下键才能选择。有 没有办法让相似的
2018年12月9日,由江苏省报协、浙江省报协、上海市报协、淮海经济区城市报业联盟和中共徐州市委宣传部共同主办,江苏金彭车业有限公司特别支持的首届长三角暨淮海经济区报业