论文部分内容阅读
中文的全球化普及己经成为了一种必然趋势。掌握汉语词汇是学好汉语的关键因素之一。然而,市场上的词汇学习软件目前存在着许多缺点,例如学习内容与学习环境脱轨,这使得词汇含义抽象导致低效学习。为解决这一问题,提髙学习效率,本文采用基于深度学习的场景理解算法,从学习环境中自动生成汉语词汇学习列表,设计了一种新型汉语词汇学习软件。该算法首先检测并识别由摄像机捕获的场景图像中的对象,并生成包含候选汉字的词汇表,用于从所识别的对象的信息学习。此外,列表中的每个字符都与在线搜索的学习材料相关。这种方法的优点在于它建立了真实场景中词汇与对象之间的关系,从而解决了词汇学习行为与现实环境脱节的问题.最后,根据情景学习和多渠道记忆学习理论,设计并实现了第二语言汉语词汇学习的演示软件。具体的工作内容如下:1.自然场景目标对象的自动检测和识别.介绍了一种深度学习的方法,并且将它应用到自然场景目标对象的自动检测和识别中,最后实现并展示了识别效果。其核心内容是对场景的理解。具体而言,它指的是对学习者学习环境中目标的认识和理解。最终目标是提取由所理解的对象的名称和数量检测到的信息,并使用处理结果作为元数据作为对下一个中文词汇表的输入来执行适当的处理。对象识别分为以下几个步骤:1.数据集准备。2.将其输入预先训练的神经网络以获得相应的特征图。3.为特征图中的每个点设置预定的ROI以获得多个候选ROI。4.这些候选ROI被发送到RPN网络以进行二进制分类和BB回归,并且一些候选ROI被过滤掉。S.对剩余的ROI执行ROIAIign操作。6.最后,对这些ROI,BB回归和MASK生成进行分类。首先,准备数据集。本文使用MS COCO数据集将120k数据集划分为80k训练集,35k验证集和5k测试集,训练集中有82,081张图片。COCO数据库共有81个类别。接下来,将在Keras深度学习框架上构建一个神经网络。这里使用的MASK R-CNN是一个两阶段框架,第一阶段扫描图像并生成提议框,第二阶段对提议框进行分类并生成边界框和掩码。具体深度学习流程图如下:此时,我们已经有了明确定义的神经网络结构,因此我们可以将样本数据作为网络的输入进行训练。通过批量迭代训练,我们可以得到成熟的网络模型参数。训练步骤如下:1.从图像训练数据集文件夹中读取每个图像,在读取过程中保留其文件夹信息,并根据其灰度值将图像转换为张量。每个文件夹代表一个单独的类别,该文件夹中的所有图像属于同一类别。2.将所有分类保存在字典中,并按1-81对它们进行编号。使用该数字查询字典中的特定类别,并将类别的标识转换为张量。3.根据每个图片的文件夹信息,对应于类别标识符,将新的键值对插入队列中,并且训练样本中的每个图片与其类别标签正确关联。4.确定队列中的最小样本数,对队列进行分区,并确定队列中的训练样本图像按批量大小输入训练网络。5.使用Mask R-CNN进行训练。6.收敛后获得成熟的模型。当学习者将图像从终端上传到后台服务器时,服务器将图像的灰度值矩阵作为输入提交给分类器到网络。分类器通过使用已经学习的网络参数来提取和识别上载的图像,并预测分类结果。最后,输出具有图像分类预测结果的最大概率分布值的一个类别标签作为图像类别结果。我们可以看到这张照片中的一些常见物体,如床,灯,椅子.手提包等。所以经过深度学习识别.我们可以看到识别结果如下。可以看出,测试图像中的每个对象都己被识别和预测.这是基于该深度学习算法的优越性和自动分割功能,我们可以肴到侮个对象都被准确地识別和分割。2.生成词汇学习列表。经过深度学习,我们获得基于COCO数据库和预测参数的训练模型。此时,我们需要输入我们需要检测的图像,并将结果输出保存为单词列表。具体方法是:1.输入需要预测的图像大小。2.输入训练模型保存的路径和文件名。3.加载要预测的图像。4.将图像格式转换为我们需要的矩阵格式。5.将数据格式转换为可以计算的float32格式。6.转换力指定的输入格式的形状。7.将预测结果定义为具有最大logit值的分类。8.使用softmax获取概率。9.获得标签位置的最大概率。10.定义Savar类。11.加载检查点状态,这里将获得最新训练的模型。12.加载模型和训练过的参数。13.获取文件名保存模型时迭代的轮数。14.获取预测结果并获取标签名称。我们己经能够识别COCO数据集中与每个标签相对应的对象的名称。此时,我们将这81个类别存储在".name"类型列表中。目前,我们已经有了一个英文单词列表。接下来,根据81个英语词汇表的序列号,我们还创建了一个中文词汇表。两个词汇表是根据序列号对应的关系。通过这种方式,创建了基于COCO数据库的中文词汇表。3.扩充列表学习资源。但是,COCO数据库中的词库数量有限,因此为了扩展词汇量,我们使用了一个额外的子类别。获取中文词汇表与英语词汇表一致,我们可以创建一个新的".name"文件,使文件和以前的中文词汇表具有相同的序列号。通过序列号,我们可以从主类词汇表中获取子类词汇表。在识别出类别的词汇后,将显示出查询词汇表下的相应子词汇列表。另外,本文还加入了在线学习资源,即通过点击相应子词类别中显示的中文词汇来链接与中文词汇对应的图像搜索引擎搜索结果。类似地,实现过程为将每个子类词汇表及其相应的网络URL通过序其列号来链接。4.结合情景学习策略和多通道学习策略实现了演示软件.系统实现的步骤分为以下几个步骤:1。将准备好的资源文件和训练好的模型导入系统。2.创建主界面并添加“开始"按钮。3.创建主学习界面,包括打开图片,检测图片,显示图片的中文名称,文本检测和语音播放。4.创建子类词汇表接口,包括词汇表的超链接。第一个是登录模块,它只有几个文本组件和一个按钮组件。文本组件包括软件的中文名称和相应的英语解释。适合初学者熟悉界面,简单明了,不需要登录和注册,可以直接使用,非常方便。第二个是词汇学习的基本模块。该模块有六个按钮元素和三个文本框元素和一个轴元素。按钮组件分别提供以下功能:1.打开图像,主代码实现从本地计算机文件夹打开图片的功能,并将其显示到轴组件。2.检测,主要代码实现功能是调用己经训练过的深度学习模型来识別检测到的打开图像中的对象。并根据区域的大小,选择图片中最主要的对象。3.查看单词。此组件的功能是在右侧的空白文本框中显示检测到的对象类名称。4.检测正确或错误结果,其主要功能是在右侧提供一个可编辑的空白文本框,并将文本框的输入与标识类名称进行比较。播放,通过类名的名称调用直接播放音频数据库中的音频。6.相关词汇,该组件的功能是打开扩展学习模块。此主词汇学习界面,结合了多通道学习策略,通过语音播放,文本显示和自然场景图像学习等功能,将多个学习通道结合起来。因此,使用多通道记忆方法,可以加深学习者的词汇记忆。该软件还增加了文本验证反馈功能,使学习者能够加深和巩固记忆,提升记忆效果。同时,还结合了情景学习策略,将视觉捕捉的图像信息和文本信息直接联系起来,将学习者置于学习环境之中,提升学习效果。第三个是扩展学习模块。该模块由与主词汇列表对应的子词汇列表和对应的URL链接组成。通过这种扩展学习的方法,可以在学习者的文本词汇与图像之间建立思维联系,同时丰富词汇学习者的词汇量,加深学习者对基本词汇的理解和记忆。5.学习效果检验。首先,本文将现代汉语词典与本文所设计的词汇学习软件的学习效果进行了比较,以检测所设计的学习软件是否能提升学习效率。从图中可以看出,我们设计的软件明显优于传统的学习软件。在相同的时间内,我们可以使用我们的软件来掌握比传统软件更多的新词。关于忘记学习单词的问题,也是在相同的时间长度内,我们设计的忘记速度的软件比传统软件慢得多。换句话说,我们设计的软件具有"学得更快,记忆更久"的特点。此外,根据调查问卷,收集得到了本文设计软件的优点统计图:根据用户调查的反馈,我设计的软件的最大优点是它不仅是一个单词搜索软件,而且是一个简单易用的学习软件,可以随时随地学习汉语单词。但最大的缺点是它无法为中文相关的考试来备考。本文主要工作也是本文的创新点如下:1.将深度学习方法应用于汉语学习的词汇学习软件中,由此实现了情景学习的学习策略,将学习者置于学习环境中,将学习对象与学习环境相互联系,解决了学习与现实脱轨的问题。2.自动生成了基于自然环境的词汇学习列表,并衍生生成了子词汇学习列表,让学习者能够利用列表资源进行学习,从而加深和扩展了学习效果,丰富了学习的途径。3.结合多通道学习策略和情景学习策略,设计并实现了词汇学习演示软件,实验结果证明,本文所设计的词汇学习软件的学习效果明显优于传统学习词汇软件的学习效果。