论文部分内容阅读
对神经网络内部行为的探索与分析一直以来是深度学习研究与发展的热点。尽管已经在大量的实验和任务中证明了深度学习的实用性,包括诗歌生成任务,但在其模型的可解释性上总是有很大的争议。本文结合目前国内教育领域中较为火热的古典诗歌作为突破口,以在深度学习中的古典诗歌自动生成任务为基础,通过可视分析的方法来探究循环神经网络的内部行为。首先,利用长短期记忆网络进行诗歌自动生成模型的建立,通过处理后的数据对模型进行训练,在训练结束后通过使用训练好的模型进行诗歌自动生成的样例展示。其次,提取出诗歌自动生成任务训练过程中的神经元状态,利用循环神经网络可视分析工具LSTMVIS对隐藏状态的训练结果进行时序的可视化,根据诗歌的相关特点和不同的神经网络参数进行神经元行为的假设;并结合不同参数的组合所训练的模型进行对比可视分析。最后,通过上述假设和实验,期望找到训练过程中神经网络是否学习到了诗歌的特点,对比不同的参数设置所训练的模型来找到学习效果和参数之间的关系,来提高在诗歌数据训练过程中的模型可解释性。通过上述实验和分析得到了如下结果和结论:第一,对神经网络的训练,通过自动生成可以得到具有明显押韵特点的类似“五言绝句”的诗歌。第二,针对隐藏层层数为2,匹样本大小为128的神经网络的神经元状态进行分析,发现了古典诗歌数据集训练的LSTM网络模型中,有特定神经元在一定的取值范围内可以控制其韵脚词。第三,对隐藏层数和样本批量大小不同的四组实验进行了对比分析后,发现不管是什么样的参数都会通过神经元来控制一些特征,而且大的样本批量大小会学习到更明显的诗歌特点,而具有两个隐藏层的神经网络在一些情况下可以利用较少的神经元实现诗歌特点的匹配。