论文部分内容阅读
近年来,随着人工智能领域尤其是深度学习的快速发展,自然语言处理在人类的学习工作与生活中正发挥着越来越重要的作用。智能问答的出现使得一大批应用或服务涌现出来,如百度的小度,阿里的天猫精灵,小米的小爱同学,苹果的Siri。智能问答是知识的一种表现形式,知识是人类最宝贵的财富,所以研究智能问答对于人类知识的提取与运用有着重要意义,让机器明白的比人类更多,回答的更准确,这是智能问答研究者的共同目标。但是智能问答领域还不是特别成熟,很多人想当然的把科幻水平误认为是当今的发展水平,所以要提高智能问答系统的准确率,让机器更智能,回答的问题更接近于人类甚至超越人类的水平,让人类对机器的回答更满意。本文的研究就是基于此目的。首先介绍了自然语言处理的基本模型,从独热编码,词嵌入到Seq2seq(sequence to sequence),然后介绍了由Transformer带火的预训练模型尤其是BERT(Bidirectional Encoder Representation from Transformers),标志着自然语言处理进入了黄金时期。自然语言处理的概念或基础为之后深入研究智能问答打下了坚实的基础。然后在基本模型双向注意力流即BiDAF(Bidirectional Attention Flow)模型的基础上,使用数据集SQuAD 2.0(Stanford Question-Answering Dataset)作为训练数据,使用精确匹配EM值(Exact Match)和模糊匹配F1的值作为评价指标,EM值代表模型预测的答案和标准答案是否完全一样,EM值越大就表示模型预测的结果和标准答案越接近;F1参数是根据模型给的答案与标准答案的重合度求出一个0到1之间的分数,这个分数就是精确率和召回率的调和平均。经过训练,得到BiDAF模型在SQuAD 2.0数据集上的表现是EM值为58.60,F1为61.95。最后,使用预训练模型ALBERT(A Lite BERT)进行研究,共分为5个模型进行研究,模型一直接使用ALBERT加输出层,模型二在ALBERT的基础上增加了高速网络,模型三则增加了门控循环单元GRU(Gate Recurrent Unit)和注意力层,模型四是GRU加高速网络,模型五是使用ALBERT-xxlarge版本。经过训练,在使用ALBERT基础版本的模型一、二、三、四中,模型一直接加输出层的效果最好,比基本BiDAF模型EM值提高了17.68,F1值提高了16.73。5个模型中ALBERT-xxlarge版本效果最好,较BiDAF模型的EM值提高了24.35,F1值提高了23.35。本论文的创新点是使用了现今最强大的ALBERT模型进行研究,而不是用前一两年很火的BERT或XLNet进行研究。在ALBERT的基础上,提出了添加不同层来进行研究的方法,极大的提高了在SQuAD 2.0版本数据集上的准确率。其中参数最多的ALBERT-xxlarge模型效果最好,比基础模型的EM值和F1值分别提高了41.55%和37.69%,效果显著。