论文部分内容阅读
随着大数据技术向农业生产领域的渗透,农业数据呈现出爆发式增长。农业科技信息服务平台是一个专业提供农技问答、专家指导、在线学习、成果速递、技术交流等的综合性服务平台,其中农技问答社区在农户和农技人员的技术交流,以及用户获取农业生产问题的解决方案中发挥着重要作用,但由于农业文本数据的高维性、稀疏性和专业性,依靠人工筛选特征和浅层学习模型对农业文本数据进行管理效果并不理想,难以挖掘农业文本深层次语义特征提取高质量问答对。获取高质量问对构建问答系统一般包括用户问句语义分析、答案抽取和答案生成三个部分。与此同时,水稻作为我国重要的粮食作物之一,在我国有着广泛的种植面积,水稻生产中的病虫害问题一直是影响其品质和产量的主要因素之一,如何在生产过程中快速准确地提供水稻病虫害问题的治理方法与手段显得尤为重要。因此本文以水稻问答社区为例,针对农业问答社区面临的4个关键技术难题:农业问句难以精确地自动分类;问答社区难以精确挖掘相同语义问句,一定情况下造成平台知识的冗余;问答社区难以在候选答案中自动、精准识别正确答案;现有的农业问答模型准确率较低,难以满足用户在生产过程中实时获取解答方式的要求。采用深度学习和自然语言处理技术对问句分类、问句语义相似度、答案抽取和答案生成4个方面进行语义模型构建,挖掘问答社区高质量水稻问答对,从而提高水稻问答系统的整体性能。首先,为了解决水稻问答社区中水稻提问数据快速自动分类问题,提出一种基于注意力机制(Attention)和密集连接卷积神经网络(Densely connected convolutional neural network,Dense CNN)水稻问句文本分类方法。针对水稻文本具备的特征,采用Word2vec方法对文本数据进行处理与分析,并结合农业分词词典,对文本数据进行向量化处理,使用Word2vec方法能够有效地解决文本的高维性和稀疏性问题。通过对卷积神经网络上下游卷积块之间建立一条稠密的连接,加强了文本特征的传输,增强了文本特征在各卷积块之间的流动,使得模型能够自动提取和学习文本特征。并结合注意力机制能够使文本中的关键词特征得以充分体现,使得文本分类模型具有更好的文本特征提取精度,从而提高分类精确率。试验结果表明:基于Attention-Dense CNN的水稻问句分类模型可以提高文本特征的利用率,减少特征丢失,能够实现快速及准确地对水稻问句文本进行自动分类,分类精确率及F1值分别为95.6%和94.9%,与其他7种神经网络问句分类方法相比,分类效果提升明显。其次,为了解决水稻问答社区中相同语义问句文本的快速自动检测,提出一种基于BERT的协同注意力机制(Coattention)和密集连接双向门控循环单元(Densely connected gated recurrent unit,Dense BiGRU)的水稻问句相似度匹配模型。针对水稻文本具备的特征,本文采用12层Transformer的中文BERT文本预训练模型对文本数据进行向量化处理,并与Word2vec、Glove、TF-IDF方法进行对比分析,得出BERT方法能够有效解决多义词在不同语境下具有不同含义的问题。该网络的每一层都使用注意特征的连接信息以及前面所有递归层的隐藏特征,为了缓解由于密集拼接而导致特征向量尺寸不断增大的问题,在模型的最后使用自动编码器进行特征降维。试验结果表明:基于BERT的Coattention-Dense BiGRU水稻问句相似度匹配模型可以提高文本特征的利用率,减少特征丢失,能够实现快速及准确的对水稻问句文本进行相似度匹配,在本文所构建的水稻问句相似对数据集上精确率及F1值达到96.3%和96.9%,与其他6种问句相似度匹配模型相比,效果提升明显。再次,为了解决水稻问答社区正确答案的自动检测,提出了一种基于动态注意力机制和多策略匹配(Dynamic Attention and Multi-Perspective Matching,DAMM)的答案选择模型。在动态注意力机制层采用了基于过滤策略的动态注意机制,有效地去除了文本数据的冗余信息,接着在匹配层采用基于完全匹配机制和基于注意匹配机制的2种不同匹配策略获取文本信息之间的交互,使用BiGRU模型将从匹配层获得的文本特征信息拼接起来。最后,采用softmax分类器计算拼接文本特征信息的相似度,得到问答句之间的语义相关性。实验结果表明,与其他6种答案选择模型相比,DAMM在水稻问答社区答案选择数据集的效果最优,DAMM的平均精确率(Mean Average Precision,MAP)和平均倒数排名(Mean Reciprocal Rank,MRR)分别达到85.7%和88.9%。能够实现水稻问答社区正确答案的精确和自动识别。最后,采用基于注意力机制和残差长短期记忆(Residual long short-term memory,Res LSTM)的序列到序列(Sequence to Sequence,Seq2seq)模型,实现了水稻生成式问答模型的构建。首先使用GPT预训练模型对水稻问答文本进行向量化表示。然后在编码器和解码器中使用Res LSTM提取文本特征,Res LSTM提供了一个额外的低空间捷径,使用LSTM的输出投影矩阵和输出门来控制空间信息流,当模型损失函数趋于稳定时,模型只保留水稻问句向量的恒等映射值,减少了模型参数,提高了模型性能。接下来在编码器和解码器中间连接注意力机制,可以有效加强问句关键词特征信息的权重;最后在解码过程中使用Softmax函数计算最终的概率分布。试验结果表明:基于Attention-Res LSMT-Seq2seq的水稻问答模型与其他6种水稻生成式问答模型相比,BLEU和ROUGE指标得分达到最高的35.3%和37.8%。