基于深度学习的幼儿看图说话系统设计与实现

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:glacier000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着图像数量日益激增,让机器自动识别图像内容,并用符合人们阅读习惯的语句描述图像内容的图像文本描述技术,成为目前人工智能领域一项重要的研究内容。图像文本描述技术的主要目标是让机器实现“看图说话”,“看图说话”同时也是幼儿教育的主要任务之一。通过图像文本描述技术,幼儿跟随机器一起进行“看图说话”,这将在一定程度上辅助引导幼儿理解图像内容,激发幼儿的学习兴趣。本文的研究目标是利用图像文本描述技术设计并实现一个幼儿看图说话系统,将人工智能技术应用于教育领域,辅助幼儿教育。为实现这一目标,本文对图像文本描述技术进行研究:在准备阶段,本文选取AI Challenger图像中文文本描述数据集,对中文文本进行分词,并使用Word2Vec对标注语句进行词嵌入编码。在模型搭建阶段,本文基于深度学习的方法,采用“编码器-解码器”方式进行搭建,利用ResNet50对图像进行编码,再将图像编码信息与标注语句的词嵌入编码信息一起输送给LSTM网络,生成描述语句。在训练阶段,本文发现由于LSTM网络每一时刻接收的都是图像的全局编码信息,随着时间的推移,对图像信息的利用率逐步下降,生成的预测单词不够准确。针对这一问题,本文引入注意力机制,首先将图像和标注语句的编码信息输送给注意力机制,使其对图像编码信息进行加权处理,其次将处理后的编码信息按时间步输送给堆叠LSTM网络。堆叠LSTM网络通过增加LSTM网络模型的层数,增强模型的表达能力,本文采用了三层堆叠LSTM网络模型作为模型的解码器。为进一步提高网络模型的性能,本文使用Smooth L1损失函数来优化网络模型,加快了收敛速度,同时避免了梯度爆炸问题的产生。本文进行了多组对比实验,并对实验结果进行分析,从多角度验证了改进后模型的有效性。本文基于B/S架构,采用Flask框架搭建了幼儿看图说话系统,系统调用图像中文文本描述模型,实现了上传图片,查看自动生成的图像描述语句等功能。考虑到幼儿群体识字较少、喜欢互动的特点,系统借助语音播报API以“说话”的方式向幼儿传递描述图像的文本信息,满足了幼儿看图说话的基本需求,激发了幼儿的学习兴趣,促进了幼儿自主学习。
其他文献
Schrodinger方程是量子力学中的基本模型,在Bose-Einstein凝聚等问题中有着重要的作用,对Schrodinger方程的正规化解的研究近年来引起人们的极大关注.本文主要应用变分法来寻找下述Schrodinger方程的正规化解其中正规化条件ρ>0是给定的,Lagrange乘子λ ∈R是未知的.结合Ekeland变分原理,Trudinger-Moser不等式和Nehari-Poh
设M是特征为0的代数闭域F上的有限维马尔切夫代数.本文主要研究了带有表示V的M上的O-(对偶-)N结构.我们主要证明了:O-(对偶-)N结构可以产生一对相容的O-算子.作为一个应用,我们得到,一个可逆的反对称r-矩阵可以通过r-N结构生成与之相容的r-矩阵,与此同时,我们在4维马尔切夫代数上给出了与上述结论对应的例子.最后,我们在预马尔切夫代数上得到了一些类似的结果.
超对称顶点代数是顶点代数的推广.本文研究了超对称顶点代数和超对称李共形代数的交换性和幂零性以及单超对称顶点代数与其相伴的超对称李共形代数之间的关系.讨论了超对称顶点代数的表示,证明了其表示满足弱结合性.进一步,建立了超对称空间下的场代数和超对称顶点代数的联系.最后给出了超对称李共形代数广义导子的相关结果.
本文,我们研究了二维有界区域上粘性系数依赖密度的可压缩Navier-Stokes方程(Kazhikhov模型)的初边值问题。在β>1的条件下,证明了Dirichlet边值球对称强解的整体存在性。
图像复原问题在数字图像处理研究领域中是一类重要的研究问题,这一问题包括数字图像去噪、去模糊、修复以及超分辨率等。近些年来,期望块对数似然(Expected Patch Log-Likelihood,简记EPLL)算法作为一种图像复原算法受到了学界的广泛关注。EPLL算法以统计先验模型和最大似然估计为基础对图像块进行处理,EPLL算法的优越性在于它可以与任何统计先验模型相结合,并且在实践中可以提供十
转置泊松超代数是转置泊松代数的一种推广.本文在此基础上得到了转置泊松超代数张量积仍是转置泊松超代数的结果.通过几类相关的超代数的研究,构造出了新的转置泊松超代数.接着研究了转置泊松超代数的中心扩张及泛中心扩张.进一步,引入了泊松3-李超代数和转置泊松3-李超代数的概念,获得了转置泊松超代数与3-李超代数和转置泊松3-李超代数之间的联系.最后,我们引入了pre-李超代数上N超算子、O超算子及R-B超
蛋白质泛素化修饰在细胞信号转导、细胞周期调控、DNA损伤应答和细胞免疫应答等众多生命过程中发挥关键调控作用。研究人员在多种遗传性的退行性疾病中发现了蛋白质泛素化修饰的改变,说明其与相关疾病的发生密切相关,揭示其调控机制对这些疾病的诊疗以及相关药物开发都具有重要意义。通过生物实验已经识别出了大量泛素化蛋白及其修饰位点,然而,生物实验难以进行快速大规模的位点识别。因此,生物信息学方法被引入到该研究领域
近年来,随着我国经济飞速发展,房地产行业在其中起着至关重要的作用。房地产价值的变动也会体现出国家经济发展的变化,而国家经济的波动或者国家针对房地产的宏观调控也会影响着房地产价值的走势,因此对于房地产的深入研究对国家发展或是国民生活都有着重要意义。然而真实的市场中存在各种各样的因素影响房产价值,因此对房产价值的评估变得十分困难。本文应用长春真实的房地产数据,通过多模态特征提取,对评估房产价值以及探究